hive 的支持的文件类型与 压缩格式
MapReduce 的数据压缩 hive 的数据压缩 hive 支持的文件格式 hive日志分析,各种压缩的对比 hive 的函数HQL 查询 一: mapreduce 的压缩 - mapreduce 压缩 主要是在shuffle阶段的优化。 shuffle 端的 --partition (分区) -- sort (排序) -- combine (合并) -- compress (压缩) -- group (分组) 在mapreduce 优化shuffle 从本质上是解决磁盘的IO 与网络IO 问题。 减少 集群件的文件传输处理。 二: hive 的压缩: 压缩的和解压需要cpu的,hive 的常见的压缩格式: bzip2,gzip,lzo,snappy等 cdh 默认采用的压缩是snappy 压缩比:bzip2 > gzip > lzo bzip2 最节省存储空间。 注意: sanppy 的并不是压缩比最好的 解压速度: lzo > gzip > bzip2 lzo 解压速度是最快的。 注意:追求压缩速率最快的sanppy 压缩的和解压需要cpu 损耗比较大。 集群分: cpu 的密集型 (通常是计算型的网络) hadoop 是 磁盘 IO 和 网络IO 的密集型, 网卡的双网卡绑定。 三: hadoop 的检查 是否支持压缩命令 bin/hadoop checknative 3