架构层面调优-压缩详解

ε祈祈猫儿з 提交于 2020-07-28 09:59:57

压缩在mapreduce的使用位置

1.使用压缩过后的数据作为map的输入

没有使用后压缩,默认情况下一个blk对应一个split,如果没压缩,文件很大,那么map的数量就会增多
map的解压缩不用棉编码层面靠考虑

2.map的输出到reduce的输入中间过程

map输出的数据从缓存中溢出存储在磁盘中可以使用压缩
reduce获取数据进行解压缩

3.reduce处理后的结果

reduce输出结果后也能进行压缩,进行节约空间

压缩比:压缩比越高,压缩的文件越小,但是压缩/解压缩速度就降低,两者成反比

压缩/解压缩速度

位置1的时候压缩需要考虑能否使用分片?

位置2中间压缩需要快

位置3输出压缩需要节约空间

 不同的场景需要使用不同的压缩技术,快,慢,分片需要如何进行压缩技术选型

 

 

 

 

 

 

 

 

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!