集群规模计算
集群规模取决于用户数据及应用需求,最终规划值为以下各种计算方式得出的最小集群规模的最大值
网络建议

传统树状网络
组件架构
管理节点硬件要求
数据节点配置策略建议
内存需求计算
硬盘容量选择
存储服务需求
数据源 | Hadoop方式物理存储容量 | 数据节点数量 |
---|---|---|
原始文件、数据量 625T | 625TB3(复制份数)0.3(压缩比)/80%(硬盘利用率)=703TB(只存放明细数据,无表,无MR) | 按30T每节点703TB/30*1.05(冗余度)=25 台 |
Hbase 和 Cassandra | 数据服务:假设历史数据量为2.6T,每日增量为55G,数据保留365天,3副本使用压缩时:( 2.6 + 0.055365 ) 1.3*1.2(key开销)/70%(硬盘利用率)=51T | 按30T每节点51T/30*1.3(冗余度)=3台打开WAL时需增加:region server wal大小(通常小於RS内存的一半) |
服务器配置建议
管理服务器 | 数据服务器 | 边缘服务器 | |
---|---|---|---|
CPU | 2*E5-2620v4 | 2*E5-2620v4 | 2*E5-2620v4 |
硬盘 | SAS 600GB*4;RAID0+1 | SAS 600GB15 | SAS 600GB15 |
内存 | 256G ECC | 256G ECC | 256G ECC |
网络 | 双万兆网卡 | 双万兆网卡 | 双万兆网卡 |
数量 | 3 | 30 | 3 |