CDH初期集群构建方案建议
集群规模计算 集群规模取决于用户数据及应用需求,最终规划值为以下各种计算方式得出的最小集群规模的最大值 网络建议 传统树状网络 组件架构 管理节点硬件要求 数据节点配置策略建议 内存需求计算 硬盘容量选择 存储服务需求 数据源 Hadoop方式物理存储容量 数据节点数量 原始文件、数据量 625T 625TB 3(复制份数) 0.3(压缩比)/80%(硬盘利用率)=703TB(只存放明细数据,无表,无MR) 按30T每节点703TB/30*1.05(冗余度)=25 台 Hbase 和 Cassandra 数据服务:假设历史数据量为2.6T,每日增量为55G,数据保留365天,3副本使用压缩时:( 2.6 + 0.055 365 ) 1.3*1.2(key开销)/70%(硬盘利用率)=51T 按30T每节点51T/30*1.3(冗余度)=3台打开WAL时需增加:region server wal大小(通常小於RS内存的一半) 服务器配置建议 管理服务器 数据服务器 边缘服务器 CPU 2*E5-2620v4 2*E5-2620v4 2*E5-2620v4 硬盘 SAS 600GB*4;RAID0+1 SAS 600GB 15 SAS 600GB 15 内存 256G ECC 256G ECC 256G ECC 网络 双万兆网卡 双万兆网卡 双万兆网卡 数量 3 30 3