cdh

CDH初期集群构建方案建议

匿名 (未验证) 提交于 2019-12-02 23:38:02
集群规模计算 集群规模取决于用户数据及应用需求,最终规划值为以下各种计算方式得出的最小集群规模的最大值 网络建议 传统树状网络 组件架构 管理节点硬件要求 数据节点配置策略建议 内存需求计算 硬盘容量选择 存储服务需求 数据源 Hadoop方式物理存储容量 数据节点数量 原始文件、数据量 625T 625TB 3(复制份数) 0.3(压缩比)/80%(硬盘利用率)=703TB(只存放明细数据,无表,无MR) 按30T每节点703TB/30*1.05(冗余度)=25 台 Hbase 和 Cassandra 数据服务:假设历史数据量为2.6T,每日增量为55G,数据保留365天,3副本使用压缩时:( 2.6 + 0.055 365 ) 1.3*1.2(key开销)/70%(硬盘利用率)=51T 按30T每节点51T/30*1.3(冗余度)=3台打开WAL时需增加:region server wal大小(通常小於RS内存的一半) 服务器配置建议 管理服务器 数据服务器 边缘服务器 CPU 2*E5-2620v4 2*E5-2620v4 2*E5-2620v4 硬盘 SAS 600GB*4;RAID0+1 SAS 600GB 15 SAS 600GB 15 内存 256G ECC 256G ECC 256G ECC 网络 双万兆网卡 双万兆网卡 双万兆网卡 数量 3 30 3

CDH5.16.1集群企业真正离线部署

匿名 (未验证) 提交于 2019-12-02 23:36:01
1.离线部署大纲 MySQL离线部署 CM离线部署 2.规划 linux版本:CentOS 7.2 节点 MySQL组件 CM服务进程 hadoop001 MySQL Parcel Alert Publisher Event Server NN RM DN NM ZK hadoop002 Alert Publisher Event Server DN NM ZK hadoop003 Host Monitor Service Monitor DN NM ZK 3.下载源 CM cloudera-manager-centos7-cm5.16.1x8664.tar.gz Parcel CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel.sha1 manifest.json JDK JDK8 下载jdk-8u202-linux-x64.tar.gz MySQL MYSQL5.7 下载mysql-5.7.26-el7-x86_64.tar.gz MySQL JDBC jar mysql-connector-java-5.1.47.jar 下载完成后要重命名去掉版本号 mv mysql-connector-java-5.1.47.jar mysql-connector-java.jar 1

CDH Hue使用时报错: you are a Hue admin but not a HDFS superuser ,解决办法

匿名 (未验证) 提交于 2019-12-02 23:34:01
1. 报错:you are a Hue admin but not a HDFS superuser hue, 打开file browser页面报错: Cannot access: /user/hue. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS supergroup, "supergroup". StandbyException: Operation category READ is not supported in state standby. Visit https://s.apache.org/sbnn-error (error 403) 原因是:HA的namenode由hadoop1和hadoop2组成。原来是hadoop1为活跃namenode,变成了hadoop2为活跃。手动切换namenode,变成hadoop1为活跃。hue恢复正常使用。 2.添加新的hue load balance,启动时报错 ImportError: libxslt.so.1: cannot open shared object file: No such file or directory 解决: yum install libxslt 继续报错 : Failed to find the

0009-如何升级Cloudera Manager和CDH

匿名 (未验证) 提交于 2019-12-02 22:56:40
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 1.文档编写目的 本文档讲述如何升级Cloudera Manager和CDH,通过本文档,您将学习到以下知识: 1.如何对Cloudera Manager进行停机升级 2.如何对CDH进行停机升级 3.如何在不影响集群作业的情况下进行CDH滚动升级 文档主要分为以下几步: 1.Cloudera升级概述 2.Minor版本Cloudera Manager和CDH升级 3.Maintenance版本滚动升级CDH 4.滚动升级时进行任务验证 5.集群升级完成后功能验证 这篇文档将重点介绍CDH升级,并基于以下假设: 1.CDH5.4.3环境已搭建并正常运行 2.集群服务(CM、HBase、HDFS、Hive、Hue、Oozie、Spark、Yarn、Zookeeper) 3.Cloudera Manager使用rpm安装 4.CDH使用parcels安装 5.集群未配置Kerberos 以下是本次测试环境,但不是本操作手册的硬限制: 1.操作系统:Redhat6.5 2.旧CM/CDH版本:CM5.4.3/ CDH5.4.3 3.CM/CDH的目标升级版本:CM5.11.1/ CDH5.11.1 4.采用sudo权限的ec2-user用户进行操作 升级建议: 1.针对CDH的Maintenance Version升级

搭建CDH实验环境,以三个节点为例的安装配置

匿名 (未验证) 提交于 2019-12-02 22:56:40
(一)实验环境 l 实验介质 n CentOS-7-x86_64-Everything-1708.iso n jdk-8u161-linux-x64.rpm n cloudera-manager-centos7-cm5.12.1_x86_64.tar.gz n CDH-5.12.1-1.cdh5.12.1.p0.3-el7.parcel n CDH-5.12.1-1.cdh5.12.1.p0.3-el7.parcel.sha1 n manifest.json l 准备三台CentOS虚拟机,三个节点:一个Cloudera Manager节点、两个Agent节点 安装如下: n CDH71:Server GUI、Development Tools、MariaDB n CDH72、CDH73:Server GUI、Development Tools (二)安装配置CentOS(每台机器) 注意把下面的两个选项选上 l Server With GUI l Development Tools l MariaDB Server(就是MySQL数据库):注意只在cdh71上安装 l 关闭防火墙 systemctl stop firewalld.service systemctl disable firewalld.service l 配置主机名:编辑/etc/hosts文件 l 配置免密码登录

Cloudera CDH的安装

匿名 (未验证) 提交于 2019-12-02 22:56:40
CDH5.15.1 、 CM5.15.1 、 JDK1.8.X 、 MySQL5.7.14 (注意在下载时,一定要根据自己的 Linux系统版本,下载相应的版本,可以参照官网的版本支持信息 https://www.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_database_requirements.html) JDK,配置 JDK环境变量,关闭防火墙, 配置 SSH无密码访问 3、安装 cdh和 cm所依赖的 rpm包   yum install -y Python   yum install -y bind-utils   yum install -y psmisc   yum install -y libxslt   yum install -y zlib   yum install -y sqlite   yum install -y cyrus-sasl-plain   yum install -y cyrus-sasl-gssapi   yum install -y fuse   yum install -y portmap   yum install -y fuse-libs   yum install -y redhat-lsb   yum install -y bind-utils

linux + idea + scala + cdh环境

匿名 (未验证) 提交于 2019-12-02 21:59:42
http://www.jetbrains.com/idea/download/ 软件下载 上传解压 配置java 环境变量 export JAVA_HOME=/usr/java/jdk1.7.0_79 export PATH=$JAVA_HOME/bin:$ORACLE_HOME/bin:$R_HOME/bin:$PATH [root@hadoop01 ~]# ls /usr/java/jdk1.7.0_79/ [root@hadoop01 ~]# java -version java version "1.7.0_79" Java(TM) SE Runtime Environment (build 1.7.0_79-b15) Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode) 进入idea bin目录下面 ./idea.sh 选择"Do not import settings"这个选项,代表着当前环境从来没有安装过idea 图像配置参考 https://www.cnblogs.com/marsitman/p/7420925.html scala插件安装 完成在线安装 cdh安装。。。。 文章来源: linux + idea + scala + cdh环境

hadoop cdh 的那些坑 第二弹

匿名 (未验证) 提交于 2019-12-02 21:52:03
卧槽 。。。。一直连不上datanode 不知道为什么数据节点一直连接不上。。 2019-07-19 16:10:00,156 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop102/192.168.10.102:8485. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS) 2019-07-19 16:10:00,196 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop103/192.168.10.103:8485. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS) 2019-07-19 16:10:00,201 INFO org.apache.hadoop.ipc.Client: Retrying connect to

Hadoop 2.6.0 HA高可用集群配置详解

亡梦爱人 提交于 2019-12-01 17:38:24
1 Hadoop HA架构详解 1.1 HDFS HA背景 HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动。 影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用;二是计划内的NameNode节点软件或硬件升级,导致集群在短时间内不可用。 为了解决上述问题,Hadoop给出了HDFS的高可用HA方案:HDFS通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,比如处理来自客户端的RPC请求,而Standby NameNode则不对外提供服务,仅同步Active NameNode的状态,以便能够在它失败时快速进行切换。 1.2 HDFS HA架构 一个典型的HA集群,NameNode会被配置在两台独立的机器上,在任何时间上,一个NameNode处于活动状态,而另一个NameNode处于备份状态,活动状态的NameNode会响应集群中所有的客户端,备份状态的NameNode只是作为一个副本,保证在必要的时候提供一个快速的转移。 为了让Standby Node与Active Node保持同步

cloudera manager & CDH5 安装与升级

情到浓时终转凉″ 提交于 2019-12-01 17:16:52
一、 准备工作 下载cdh的各种源: 1.下载cloudera manager installer: http://archive-primary.cloudera.com/cm5/installer 2.因为这次要模拟升级安装,首先要先下载beta的源: http://archive-primary.cloudera.com/cm5/redhat/5/x86_64/cm/5.0.0-beta-2/ 3.然后下载release的源: http://archive-primary.cloudera.com/cm5/redhat/5/x86_64/cm/5.0.0/ 4.然后下载parcel包,官方也推荐这种方式安装: http://archive-primary.cloudera.com/cdh5/parcels/ 另外除了 parcel包,还要下载json文件,没有那个json文件是无法正常安装的. 5.下载到本地后将rpm包的源,放到webserver目录下,写好yum的repo文件 [cloudera-manager] name = Cloudera Manager, Version 5.0.0 baseurl = http://IP/yum-package/cm5/redhat/5/x86_64/cm/5.0.0/ gpgcheck = 0 6. parcel包添加验证文件