Skip to content

天楚锐齿

人工智能 云计算 大数据 物联网 IT 通信 嵌入式

天楚锐齿

  • 下载
  • 物联网
  • 云计算
  • 大数据
  • 人工智能
  • Linux&Android
  • 网络
  • 通信
  • 嵌入式
  • 杂七杂八

Hadoop性能模型(1)

2018-03-12

MapReduce Job的执行分为map任务和reduce任务,map任务分为几个阶段:Read(读map的输入),Map(map函数处理),Collect(序列化到buffer和分区),Spill(排序、组合、压缩、写map输出到本地磁盘),Merge(合并排序了的spill文件)。Reduce任务分为几个阶段:Shuffle(传输map输出到reduce任务,必要时解压缩),Merge(合并排序了的map输出),Reduce(reduce函数处理),Write(写reduce输出到分布式文件系统)。

1. 模型参数

性能模型依靠参数集来评估MapReduce job的消耗,把参数分为三个范畴:
1. Hadoop参数:影响job执行的hadoop配置参数。
2. 统计属性参数:输入数据和用户定义函数的一些统计值。
3. 消耗因子属性参数: job执行期间的I/O,CPU,网络等的消耗。

Hadoop参数:
变量                               Hadoop参数                                                             缺省值             影响
pNumNodes                   节点数                                                                                            System
pTaskMem                     mapred.child.java.opts                                              -Xmx200m      System
pMaxMapsPerNode       mapred.tasktracker.map.tasks.max                           2                    System
pMaxRedPerNode         mapred.tasktracker.reduce.tasks.max                       2                    System
pNumMappers               mapred.map.tasks                                                                           Job
pSortMB                        io.sort.mb                                                                   100 MB          Job
pSpillPerc                      io.sort.spill.percent                                                     0.8                 Job
pSortRecPerc                io.sort.record.percent                                                 0.05               Job
pSortFactor                   io.sort.factor                                                               10                  Job
pNumSpillsForComb      min.num.spills.for.combine                                         3                    Job
pNumReducers             mapred.reduce.tasks                                                                        Job
pInMemMergeThr          mapred.inmem.merge.threshold                                1000               Job
pShu?eInBufPerc          mapred.job.shuffle.input.buffer.percent                      0.7                 Job
pShu?eMergePerc        mapred.job.shuffle.merge.percent                              0.66               Job
pReducerInBufPerc       mapred.job.reduce.input.buffer.percent                     0                    Job
pUseCombine               mapred.combine.class or mapreduce.combine.class  null                Job
pIsIntermCompressed   mapred.compress.map.output                                    false              Job
pIsOutCompressed       mapred.output.compress                                            false              Job
pReduceSlowstart         mapred.reduce.slowstart.completed.maps                 0.05               Job
pIsInCompressed          输入是否压缩                                                                                    Input
pSplitSize                      输入spilt的大小                                                                                 Input

统计属性参数:
变量                                  描述

sInputPairWidth                输入kv对的平均宽度
sMapSizeSel                     mapper 大小
sMapPairsSel                   mapper kv对数量
sReduceSizeSel               reducer 大小
sReducePairsSel              reducer kv对数量
sCombineSizeSel             combine 大小
sCombinePairsSel            combine kv对数量
sInputCompressRatio       输入数据压缩率
sIntermCompressRatio     中间map输出压缩率
sOutCompressRatio         最终结果压缩率

消耗因子属性参数:
变量                                      描述
cHdfsReadCost                    从HDFS读消耗
cHdfsWriteCost                    写HDFS消耗
cLocalIOCost                        从本地磁盘执行I/O的消耗
cNetworkCost                       网络传输消耗
cMapCPUCost                      执行MAP函数的CPU消耗
cReduceCPUCost                执行Reduce函数的CPU消耗
cCombineCPUCost               执行Combine函数的CPU消耗
cPartitionCPUCost                分区的CPU消耗
cSerdeCPUCost                    序列化的CPU消耗
cSortCPUCost                       排序的CPU消耗
cMergeCPUCost                    合并的CPU消耗
cInUncomprCPUCost             解压输入数据的CPU消耗
cIntermUncomprCPUCost      解压中间数据的CPU消耗
cIntermComprCPUCost          压缩中间结果的CPU消耗
cOutComprCPUCost              压缩输出结果的CPU消耗

定义标记函数I:


初始化:

1,446次阅读

Post navigation

前一篇:

使用xmpp协议跟gtalk对话

后一篇:

Hadoop性能模型(2)

发表回复 取消回复

要发表评论,您必须先登录。

个人介绍

需要么,有事情这里找联系方式:关于天楚锐齿

=== 美女同欣赏,好酒共品尝 ===

微信扫描二维码赞赏该文章:

扫描二维码分享该文章:

分类

  • Linux&Android (81)
  • Uncategorized (1)
  • 下载 (28)
  • 云计算 (38)
  • 人工智能 (9)
  • 大数据 (35)
  • 嵌入式 (34)
  • 杂七杂八 (35)
  • 物联网 (65)
  • 网络 (25)
  • 通信 (22)

归档

近期文章

  • 飞书机器人发送卡片interactive消息
  • Springboot JPA实现对数据库表统一的增删改查
  • WEB的内容安全策略CSP(Content-Security-Policy)
  • CSS利用@media和viewport实现响应式布局自动适配手机电脑等
  • VUE前端增加国际化支持

近期评论

  • linux爱好者 发表在《Linux策略路由及iptables mangle、ip rule、ip route关系及一种Network is unreachable错误》
  • maxshu 发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • Ambition 发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • Ambition 发表在《使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序》
  • maxshu 发表在《Android9下用ethernet 的Tether模式来做路由器功能》

阅读量

  • 使用Android的HIDL+AIDL方式编写从HAL层到APP层的程序 - 23,810次阅读
  • 卸载深信服Ingress、SecurityDesktop客户端 - 18,519次阅读
  • 车机技术之车规级Linux-Automotive Grade Linux(AGL) - 10,569次阅读
  • linux下的unbound DNS服务器设置详解 - 9,323次阅读
  • 在Android9下用ndk编译vSomeIP和CommonAPI以及使用例子 - 9,136次阅读
  • linux的tee命令导致ssh客户端下的shell卡住不动 - 8,639次阅读
  • Linux策略路由及iptables mangle、ip rule、ip route关系及一种Network is unreachable错误 - 8,126次阅读
  • 车机技术之360°全景影像(环视)系统 - 8,088次阅读
  • 车机技术之Android Automotive - 7,940次阅读
  • Windows下安装QEMU并在qemu上安装ubuntu和debian - 7,840次阅读

其他操作

  • 注册
  • 登录
  • 条目 feed
  • 评论 feed
  • WordPress.org

联系方式

地址
深圳市科技园

时间
周一至周五:  9:00~12:00,14:00~18:00
周六和周日:10:00~12:00

标签

android AT命令 CAN centos docker Hadoop hdfs ip java kickstart linux mapreduce mini6410 modem nova OAuth openstack os python socket ssh uboot 内核 协议 安装 嵌入式 性能 报表 授权 操作系统 数据 数据库 月报 模型 汽车 深信服 源代码 统计 编译 脚本 虚拟机 调制解调器 车机 金融 鉴权
© 2025 天楚锐齿