压缩在mapreduce的使用位置
1.使用压缩过后的数据作为map的输入
没有使用后压缩,默认情况下一个blk对应一个split,如果没压缩,文件很大,那么map的数量就会增多
map的解压缩不用棉编码层面靠考虑
2.map的输出到reduce的输入中间过程
map输出的数据从缓存中溢出存储在磁盘中可以使用压缩
reduce获取数据进行解压缩
3.reduce处理后的结果
reduce输出结果后也能进行压缩,进行节约空间
压缩比:压缩比越高,压缩的文件越小,但是压缩/解压缩速度就降低,两者成反比
压缩/解压缩速度
位置1的时候压缩需要考虑能否使用分片?
位置2中间压缩需要快
位置3输出压缩需要节约空间
不同的场景需要使用不同的压缩技术,快,慢,分片需要如何进行压缩技术选型
来源:oschina
链接:https://my.oschina.net/u/4434424/blog/4286727