Skip to content

天楚锐齿

人工智能 云计算 大数据 物联网 IT 通信 嵌入式

天楚锐齿

  • 下载
  • 物联网
  • 云计算
  • 大数据
  • 人工智能
  • Linux&Android
  • 网络
  • 通信
  • 嵌入式
  • 杂七杂八

Hadoop性能模型(4)

2018-03-12

3 Reduce任务阶段性能模型

Reduce任务分为四个阶段:
1. Shuffle: 从map节点拷贝map输出到reduce节点,需要的话解压缩,该阶段可能会有部分merge。
2. Merge:从不同的mappers合并排序的分片,形成reduce函数的输入。
3. Reduce:执行用户提供的reduce函数。
4. Write:写输出到HDFS,需要的话压缩。

3.1 Shuffle阶段模型

下面的讨论基于单个reduce任务,在shuffle阶段,框架从每个mapper取得map输出分片,拷贝到reduce节点。假如map输出被压缩,则需要解压,每个map分片到达reduce:

这里的intermDataSize和intermDataPairs是单个mapper的中间输出的数据大小和k-v对数。
单个reduce取得的数据:

数据拷贝到reduce后,放在shuffle buffer内存的大小:

当内存大小达到门限,或分片数大于pInMemMergeThr,这些分片被合并,随即spill到磁盘,建立新的spill文件(文件名为shuffleFile),合并门限:

然而,当分片大小大于shuffleBufferSize的25%,这个分片将直接写入磁盘,而不需要经过内存(进一步,没有内存合并阶段)。

一个shuffle文件合并numSegInShuffleFile个分片,如果有combine功能,在合并期间使用,注意,假如numSegInShuffleFile大于numMappers,则不用合并。

在合并的最后,一些分片也许留在内存:

当shuffle文件数量超过一定门限(2XpSortFactor-1),一个新的合并线程会被触发,pSortFactor个shuffle文件会被合并成一个更大的排序文件。在磁盘合并期间combine功能不使用。这样子的merge总数是:

在shuffle阶段末尾,合并和非合并的shuffle文件都将保存于磁盘:

863次阅读

Post navigation

前一篇:

Hadoop性能模型(3)

后一篇:

Hadoop性能模型(5)

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

个人介绍

需要么,有事情这里找联系方式:关于天楚锐齿

=== 美女同欣赏,好酒共品尝 ===

微信扫描二维码赞赏该文章:

扫描二维码分享该文章:

分类

  • Linux&Android (79)
  • Uncategorized (1)
  • 下载 (28)
  • 云计算 (37)
  • 人工智能 (8)
  • 大数据 (26)
  • 嵌入式 (34)
  • 杂七杂八 (34)
  • 物联网 (59)
  • 网络 (23)
  • 通信 (21)

归档

近期文章

  • IDEA修改settings.xml让maven同时支持本地和远程多仓库
  • SpringBoot把本地的第三方jar文件打包进jar包
  • 使用Python渲染OpenGL的.obj和.mtl文件
  • 用LVGL图形库绘制二维码
  • Android使用Messenger和SharedMemory实现跨app的海量数据传输

近期评论

  • linux爱好者发表在《Linux策略路由及iptables mangle、ip rule、ip route关系及一种Network is unreachable错误》
  • maxshu发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • Ambition发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • Ambition发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • maxshu发表在《Android9下用ethernet 的Tether模式来做路由器功能》

阅读量

  • 使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序 - 18,829次阅读
  • 卸载深信服Ingress、SecurityDesktop客户端 - 13,506次阅读
  • 车机技术之Android Automotive - 6,964次阅读
  • 车机技术之车规级Linux-Automotive Grade Linux(AGL) - 6,572次阅读
  • 在Android9下用ndk编译vSomeIP和CommonAPI以及使用例子 - 6,423次阅读
  • Linux策略路由及iptables mangle、ip rule、ip route关系及一种Network is unreachable错误 - 6,225次阅读
  • linux下的unbound DNS服务器设置详解 - 6,031次阅读
  • linux的tee命令导致ssh客户端下的shell卡住不动 - 5,638次阅读
  • Windows下安装QEMU并在qemu上安装ubuntu和debian - 5,531次阅读
  • 车机技术之360°全景影像(环视)系统 - 5,274次阅读

其他操作

  • 登录
  • 条目feed
  • 评论feed
  • WordPress.org

联系方式

地址
深圳市科技园

时间
周一至周五:  9:00~12:00,14:00~18:00
周六和周日:10:00~12:00

标签

android AT命令 centos Hadoop hdfs ip ipv6 kickstart linux mapreduce mini6410 modem OAuth openstack os python socket ssh uboot 使用 内核 协议 安装 嵌入式 性能 报表 授权 数据 数据库 月报 模型 汽车 测试 深度学习 源代码 神经网络 统计 编译 网络 脚本 虚拟机 调制解调器 车机 迁移 金融
© 2023 天楚锐齿