Skip to content

天楚锐齿

人工智能 云计算 大数据 物联网 IT 通信 嵌入式

天楚锐齿

  • 下载
  • 物联网
  • 云计算
  • 大数据
  • 人工智能
  • Linux&Android
  • 网络
  • 通信
  • 嵌入式
  • 杂七杂八

Hadoop性能模型(2)

2018-03-12

2. MAP阶段性能模型

前面说过,map任务执行分为五个阶段:
1. Read:读入split,建立key-value对。
2. Map:执行用户提供的map函数。
3. Collect:收集map输出到buffer或分区。
4. Spill:排序,需要的话combine,需要的话压缩,最后spill到磁盘,建立spills文件。
5. Merge:合并spills文件到一个单个文件,合并也许执行多轮。

2.1 Read和Map阶段模型

这个阶段读入split,需要的话解压缩,建立key-value对,把输入传给用户定义的map函数。

该阶段的消耗:

假如MR job只有mapper(例如:pNumReduces=0),spill和合并阶段不用执行,map输出将直接写到HDFS。

2.2 Collect和Spill阶段模型

map函数产生的key-value对存放在map的内存中,公式化map输出:

内存buffer分为两部分:保存key-value对的序列化部分,和存储每对meta数据的计数部分。当这两部分被填满的时候(基于pSpillPerc门限值),这些key-value对被分区、排序、spill到磁盘,序列化buffer的最大key-value对数是:

计数buffer的最大key-value对数是:

spill之前的key-value对数和buffer大小的关系是:

整个spill的数量是:

这个key-value对数和每个spill的大小取决于每个k-v对的宽度,combine函数的使用以及中间数据压缩的使用。缺省sIntermCompressRatio设置为1,意思是中间结果不压缩,缺省sCombinePairsSel设置为1,意思是没有combine函数使用。

本阶段的消耗:

Post navigation

Previous Post:

Hadoop性能模型(1)

Next Post:

Hadoop性能模型(3)

发表回复 取消回复

要发表评论,您必须先登录。

个人介绍

需要么,有事情这里找联系方式:关于天楚锐齿

=== 美女同欣赏,好酒共品尝 ===

微信扫描二维码赞赏该文章:

扫描二维码分享该文章:

分类

  • Linux&Android (84)
  • Uncategorized (1)
  • 下载 (28)
  • 云计算 (39)
  • 人工智能 (10)
  • 大数据 (36)
  • 嵌入式 (34)
  • 杂七杂八 (35)
  • 物联网 (65)
  • 网络 (28)
  • 通信 (22)

归档

近期文章

  • 安装JumpServer作为堡垒机
  • xshell通过SOCKS隧道和代理实现ssh登录其他内网服务器
  • 使用stub_status和vts模块进行nginx性能监控
  • 国内使用Google的Gemini AI下AntiGravity的方式
  • 抖店云的虚机用Nginx代理解码抖店订单

近期评论

  • linux爱好者 发表在《Linux策略路由及iptables mangle、ip rule、ip route关系及一种Network is unreachable错误》
  • maxshu 发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • Ambition 发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • Ambition 发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • maxshu 发表在《Android9下用ethernet 的Tether模式来做路由器功能》

阅读量

  • 使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序 - 26,027次阅读
  • 卸载深信服Ingress、SecurityDesktop客户端 - 20,243次阅读
  • 车机技术之车规级Linux-Automotive Grade Linux(AGL) - 11,779次阅读
  • 在Android9下用ndk编译vSomeIP和CommonAPI以及使用例子 - 10,154次阅读
  • linux下的unbound DNS服务器设置详解 - 10,032次阅读
  • linux的tee命令导致ssh客户端下的shell卡住不动 - 9,308次阅读
  • Linux策略路由及iptables mangle、ip rule、ip route关系及一种Network is unreachable错误 - 9,071次阅读
  • 车机技术之360°全景影像(环视)系统 - 9,033次阅读
  • Windows下安装QEMU并在qemu上安装ubuntu和debian - 8,596次阅读
  • 车机技术之Android Automotive - 8,507次阅读

其他操作

  • 注册
  • 登录
  • 条目 feed
  • 评论 feed
  • WordPress.org

联系方式

地址
深圳市科技园

时间
周一至周五:  9:00~12:00,14:00~18:00
周六和周日:10:00~12:00

标签

android AT命令 CAN centos Hadoop hdfs ip ipv6 java kickstart linux mapreduce mini6410 modem nova OAuth openstack python socket ssh uboot 使用 内核 协议 安装 嵌入式 性能 报表 授权 数据 数据库 月报 模型 汽车 深度学习 源代码 统计 编译 网络 脚本 虚拟机 调制解调器 车机 迁移 金融
© 2026 天楚锐齿 | Powered by WordPress | Theme by MadeForWriters