CDH初期集群构建方案建议

匿名 (未验证) 提交于 2019-12-02 23:38:02

集群规模计算
集群规模取决于用户数据及应用需求,最终规划值为以下各种计算方式得出的最小集群规模的最大值






网络建议







传统树状网络







组件架构












管理节点硬件要求








数据节点配置策略建议






内存需求计算




硬盘容量选择







存储服务需求

数据源 Hadoop方式物理存储容量 数据节点数量
原始文件、数据量 625T 625TB3(复制份数)0.3(压缩比)/80%(硬盘利用率)=703TB(只存放明细数据,无表,无MR) 按30T每节点703TB/30*1.05(冗余度)=25 台
Hbase 和 Cassandra 数据服务:假设历史数据量为2.6T,每日增量为55G,数据保留365天,3副本使用压缩时:( 2.6 + 0.055365 ) 1.3*1.2(key开销)/70%(硬盘利用率)=51T 按30T每节点51T/30*1.3(冗余度)=3台打开WAL时需增加:region server wal大小(通常小於RS内存的一半)

服务器配置建议

管理服务器 数据服务器 边缘服务器
CPU 2*E5-2620v4 2*E5-2620v4 2*E5-2620v4
硬盘 SAS 600GB*4;RAID0+1 SAS 600GB15 SAS 600GB15
内存 256G ECC 256G ECC 256G ECC
网络 双万兆网卡 双万兆网卡 双万兆网卡
数量 3 30 3
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!