MapReduce调优

浪尽此生 提交于 2019-12-05 07:04:38

一、从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,

其中mapper阶段包括:

(1)数据的读取

(2)map处理以及写出操作(排序和合并/sort&merge)

 

而reducer阶段包括:

(1)对mapper端输出数据的获取

(2)数据合并(sort&merge)

(3)reduce处理以及写出操作

 

二、那么在这七个子阶段中,能够进行较大力度的进行调优的就是:map端的输出、reducer端的数据合并以及reducer的个数这三个方面的调优操作。

也就是说虽然性能调优包括cpu、内存、磁盘io以及网络这四个大方面,但是从mr程序的执行流程中,我们可以知道主要有调优的是内存、磁盘io以及网络。在mr程序中调优,主要考虑的就是减少网络传输和减少磁盘IO操作,故本次课程的mr调优主要包括服务器调优、代码调优、mapper调优、reducer调优以及runner调优这五个方面。

(1)mapreduce调优

1. mapreduce.task.io.sort.factor --->mr程序进行合并排序的时候,打开的文件数量,默认为10个.

2. mapreduce.task.io.sort.mb ---> mr程序进行合并排序操作的时候或者mapper写数据的时候,内存大小,默认100M

3. mapreduce.map.sort.spill.percent ---> mr程序进行flush操作的阀值,默认0.80。

4. mapreduce.reduce.shuffle.parallelcopies --->mr程序reducer copy数据的线程数,默认5。

5. mapreduce.reduce.shuffle.input.buffer.percent --->reduce复制map数据的时候指定的内存堆大小百分比,默认为0.70,适当的增加该值可以减少map数据的磁盘溢出,能够提高系统能。

6. mapreduce.reduce.shuffle.merge.percent --->reduce进行shuffle的时候,用于启动合并输出和磁盘溢写的过程的阀值,默认为0.66。如果允许,适当增大其比例能够减少磁盘溢写次数,提

高系统性能。同mapreduce.reduce.shuffle.input.buffer.percent一起使用。

7. mapreduce.task.timeout --->mr程序的task执行情况汇报过期时间,默认600000(10分钟),设置为0表示不进行该值的判断。

(2)代码调优

主要是mapper和reducer中,针对多次创建的对象,进行代码提出操作。这个和一般的java程序的代码调优一样。

(3)mapper调优

主要就是就一个目标:减少输出量。我们可以通过增加combine阶段以及对输出进行压缩设置进行mapper调优。

1.combine介绍:

实现自定义combine要求继承reducer类,特点:

以map的输出key/value键值对作为输入输出键值对,作用是减少网络输出,在map节点上就合并一部分数据。

适用场景,map的输出是数值型的,方便进行统计。

2.压缩设置:

在提交job的时候分别设置启动压缩和指定压缩方式。mapreduce.map.output.compress--->设置是否启动map输出的压缩机制,默认为false。在需要减少网络传输的时候,可以设置为true。

(4)reducer调优

主要是通过参数调优和设置reducer的个数来完成。

reducer个数调优:

要求:一个reducer和多个reducer的执行结果一致,不能因为多个reducer导致执行结果异常。

规则:一般要求在hadoop集群中的执行mr程序,map执行完成100%后,尽量早的看到reducer执行到33%,可以通过命令hadoop job -status job_id或者web页面来查看。

原因: map的执行process数是通过inputformat返回recordread来定义的;而reducer是有三部分构成的,分别为读取mapper输出数据、合并所有输出数据以及reduce处理,其中第一步要

依赖map的执行,所以在数据量比较大的情况下,一个reducer无法满足性能要求的情况下,我们可以通过调高reducer的个数来解决该问题。

优点:充分利用集群的优势。

缺点:有些mr程序没法利用多reducer的优点,比如获取top n的mr程序。

(5)runner调优

其实就是在提交job的时候设置job参数,一般都可以通过代码和xml文件两种方式进行设置。

1~8详见ActiveUserRunner(before和configure方法),9详解TransformerBaseRunner(initScans方法)

1. mapred.child.java.opts: 修改childyard进程执行的jvm参数,针对map和reducer均有效,默认:-Xmx200m

2. mapreduce.map.java.opts: 需改map阶段的childyard进程执行jvm参数,默认为空,当为空的时候,使用mapred.child.java.opts。

3. mapreduce.reduce.java.opts:修改reducer阶段的childyard进程执行jvm参数,默认为空,当为空的时候,使用mapred.child.java.opts。

4. mapreduce.job.reduces ---> 修改reducer的个数,默认为1。可以通过job.setNumReduceTasks方法来进行更改。

5. mapreduce.map.speculative:是否启动map阶段的推测执行,默认为true。其实一般情况设置为false比较好。可通过方法job.setMapSpeculativeExecution来设置。

6. mapreduce.reduce.speculative:是否需要启动reduce阶段的推测执行,默认为true,其实一般情况设置为fase比较好。可通过方法job.setReduceSpeculativeExecution来设置。

7. mapreduce.map.output.compress --->设置是否启动map输出的压缩机制,默认为false。在需要减少网络传输的时候,可以设置为true。

8. mapreduce.map.output.compress.codec --->设置map输出压缩机制,默认为org.apache.hadoop.io.compress.DefaultCodec,推荐使用SnappyCodec(在之前版本中需要进行安装操作,

现在版本不太清楚,安装参数:http://www.cnblogs.com/chengxin1982/p/3862309.html)

9. hbase参数设置

由于hbase默认是一条一条数据拿取的,在mapper节点上执行的时候是每处理一条数据后就从hbase中获取下一条数据,通过设置cache值可以一次获取多条数据,减少网络数据传输。

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!