cdh

CDH集成Kylin

守給你的承諾、 提交于 2019-12-22 21:49:02
CDH集成Kylin 下载地址: 下载CDH5版本Kylin 一、安装启动 1. 上传并解压下载的tar包 tar -zxvf apache-kylin-2.6.4-bin-cdh57.tar.gz -C /opt/cdh-5.15.2 mv apache-kylin-2.6.4-bin-cdh57 kylin-2.6.4 2. 配置环境变量 注意:Spark作为Kylin启动的一项环境检查,无论是否使用Spark作为Kylin的构建引擎,都需要集群安装Spark sudo vim /etc/profile # # SPARK_HOME export SPARK_HOME = /opt/cdh-5.15.2/cloudera/parcels/SPARK2/lib/spark2 export PATH = $PATH : $SPARK_HOME /sbin # # KYLIN_HOME export KYLIN_HOME = /opt/cdh-5.15.2/kylin-2.6.4 export PATH = $PATH :KYLIN_HOME/bin # # 重加载文件生效 source /etc/profile 3. 修改配置文件 vim $KYLIN_HOME /conf/kylin.properties # # 修改: kylin.server.cluster-servers

离线安装 Cloudera ( CDH 5.x )

人走茶凉 提交于 2019-12-22 04:23:31
要配置生产环境前,最好严格按照官方文档/说明配置环境。比如,官方说这个安装包用于RETHAT6, CENTOS6,那就要装到6的版本下,不然很容易出现各种各样的错。 配置这个CDH5我入了很多坑,最重要的有2点 1. HP GEN9 DL60服务器装CentOS系统, 开始想装7的版本, 官方只说支持到6. 经过各种折腾确实装好了(后面会单开一章写服务器装CentOS7) 2. CDH暂不官方支持CentOS 7, 查到国外有人是安装成功了,但是会有各种小问题需要息解决. 如7带的是python2.7, 而CDH5还是用的2.6, 所以会有包缺失. 所以最终我还是把我的服务器重装回6.5了 ==================准备安装========================== 1. 查看并下载最新的CDH版本: http://archive.cloudera.com/cdh5/parcels/latest/ ( 20150530时还是5.3.3的版本), 如果是CentOS6, 则下载带el6的 .    需要下载的文件有三个, 对应的parcel, parcel.sha1, manifest.json 下载完.sha1后改后缀为.sha 2. 下载对应的CM版本: http://archive-primary.cloudera.com/cm5/cm/5/

CDH5.11.2安装启动hive 启动失败解决办法

心已入冬 提交于 2019-12-19 23:38:02
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1,通过Cloudera Manager添加Hive服务,在启动Hive的时候遇到错误: .org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driver 这种情况,猜测是缺少jdbc驱动,于是添加jdbc驱动到相应的包下面。报的错中提示了lib路径,添加一下即可。 mysql-connector-java-5.1.36-bin.jar添加到hive的lib: /opt/cloudera/parcels/CDH-5.4.7-1.cdh5.4.7p0.36/lib/hive/lib 2,启动之后报错:org.apache.hadoop.hive.metastore.HiveMeta MetaException(message:Version infomation not found int metastore) 这个是hive中没有版本信息,是经常碰到的。因为首次使用hive,没有相应的版本信息。 .修改conf/hive-site.xml 中的 “hive.metastore.schema.verification” 值为 false 即可解决 MetaException(message:Version information

CDH5.8.3 安装部署

自古美人都是妖i 提交于 2019-12-11 19:02:42
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> hadoop的发展真快!倒不是想吹各种功能,只是很多命令、特性都在不断变化。比如以前使用的一些命令,这些命令还堂而皇之地出现在各式hadoop宝书上呢,在不断更新的hadoop面前,时不时的已经被提示Depreciated的了。并且,安装部署的东西就像是大学英语六级一样,时间一长,任凭你玩了几年的hadoop都一样可能被一下细节小地方设置错误或者漏掉。还有就是,一些配置过去只是照搬这各类书籍、博文的个代码示例粘来粘去,每一个配置文件的属性没有安心整理过一次。所以,本文趁着最近刚买了个msi,部署环境的机会,再写一篇安装部署CDH的文章。 先去下载个CHD5.8.3。我写这篇博文的时候,其实最新的是5.9.0。根据中国公司的习惯,咱就是不用最新的,气死自己。:) 不过,这里我倒是想把下载地址写一下,请用这个:http://archive.cloudera.com/cdh5/cdh/5/ 不要去官网上的的下载链接,超级烦,填表单、链接一级级点下去。就用上面这个archive的。 下了之后将hadoop-2.6.0-cdh5.8.3.tar.gz复制到/opt下,所有用户都可见。解压。 啰嗦一下。openjdk卸掉它,记得当初第一次部署hadoop的时候我嫌麻烦,将就着用openjdk了,并且起初一切很正常

CDH 5.16.1 离线安装 Spark 2.3

帅比萌擦擦* 提交于 2019-12-11 15:39:55
1.环境 CDH 5.16.1 Centos 7.6 Scala 2.11.8 2.安装前准备 1.下载 Spark2.3 所需的Parcel包 http://archive.cloudera.com/spark2/parcels/2.3.0.cloudera4/ 将三个文件拷贝到 /opt/cloudera/parcel-repo 目录下,如果有有相同文件,就将之前的文件重命名 2.下载Spark 的csd 包 http://archive.cloudera.com/spark2/csd/ 将 SPARK2_ON_YARN-2.3.0.cloudera4.jar 拷贝到 /opt/cloudera/csd 目录中 3.重启CM和集群 4.安装Spark 依次点击 “主机” --> “parcel” --> “检查新parcel” --> “分配” --> “激活” 5.问题 1.启动Spark2-shell报错 解决办法:修改 yarn.scheduler.maximum-allocation-mb 和 yarn.nodemanager.resource.memory-mb的默认值为2G 来源: https://www.cnblogs.com/wuning/p/12022728.html

CDH5.3.2中配置运行Spark SQL的Thrift Server

二次信任 提交于 2019-12-11 11:29:38
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 一,环境信息 CDH集群,Cloudera Manager5安装部署CDH5.X详细请见: http://blog.csdn.net/freedomboy319/article/details/44804721 二,在CDH5.3.2中配置运行 Spark SQL的Thrift Server 1,root用户登录CDH5.3.2集群中的某一个节点 2,cd /opt/cloudera/parcels/CDH/lib/spark/sbin 执行./start-thriftserver.sh –help 3,执行./start-thriftserver.sh 4,进入/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/spark/logs目 录,查看日志文件spark-root- org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-1-cdh- node3.grc.out,发现报如下错: Spark Command: /usr/java/jdk1.7.0_67-cloudera/bin/java -cp ::/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0

CDH中添加的Kafka消息不能同步[爬坑过程+总结解决]

烈酒焚心 提交于 2019-12-09 21:00:02
首先通过这篇博客我们可以在CDH中安装好Kafka: CDH添加Kafka服务 上面安装好Kafka已经可以创建Topic,并且Topic信息所搭建的集群均可以同步。后面因为还需要测试一下消息传输,发现开启了生产者与消费者后,在生产者发送消息到Topic时报超时,并且消费者也一直没有接受到数据。然后后面一直在解决这个问题到后面一直报异常输出 WARN clients.NetworkClient ,还重新装kafka了三次。中间因为数据删除不干净连kafka都启动不了了,弄来弄去了三四天,今天终于解决了。总结一下,若也遇到这样的问题后来者提供一些解决思路。 首先先看一下kafka的 发布订阅系统的代理结构: 一、遇到问题 首先打开生产者: kafka-console-producer --broker-list cluster2-1:2181,cluster2-2:2181,cluster2-3:2181,cluster2-4:2181 --topic test 现在再看这个指令挺可笑的。。。 kafka的 端口号应该是9092 ,我这里跟zookeeper的端口号没理解一直弄混了,后面有提到。不过还是要把之前的问题还原一下,有端口问题的同学可以尽快改过来再试试可以成功了吗。 打开消费者: kafka-console-consumer --bootstrap-server

CDH集群中YARN的参数配置

喜欢而已 提交于 2019-12-07 10:17:29
CDH 集群中 YARN 的参数配置 前言: Hadoop 2.0 之后,原先的 MapReduce 不在是简单的离线批处理 MR 任务的框架,升级为 MapReduceV2 ( Yarn )版本,也就是把资源调度和任务分发两块分离开来。而在最新的 CDH 版本中,同时集成了 MapReduceV1 和 MapReduceV2 ( Yarn )两个版本,如果集群中需要使用 Yarn 做统一的资源调度,建议使用 Yarn 。 CDH 对 Yarn 的部分参数做了少了修改,并且添加了相关的中文说明,本文着重介绍了 CDH 中相比 MapReduceV1 一些参数改动的配置。 一、 CPU 配置 ApplicationMaster 虚拟 CPU 内核 yarn.app.mapreduce.am.resource.cpu-vcores // ApplicationMaster 占用的 cpu 内核数( Gateway-- 资源管理 ) 容器虚拟 CPU 内核 yarn.nodemanager.resource.cpu-vcores // 单 个 NodeManager 最大能分配的 cpu 核数 ( NodeManager -- 资源管理 ) 结论:当前 nodemanager 申请的 ApplicationMaster 数总 和小于 nodemanager 最大 cpu 内核数 二

03 - CDH 6.3.x 安装

拥有回忆 提交于 2019-12-05 19:15:32
CDH 6.3.x 离线安装 环境 CDH 6.3.1 CentOS 7 官方文档 修改主机名,配置host文件 # 根据个人需要修改主机名称 hostnamectl set-hostname node1 hostnamectl set-hostname node2 hostnamectl set-hostname node3 # 修改每个主机的 host 文件 vi /etc/hosts 172.16.1.181 node1 172.16.1.182 node2 172.16.1.183 node3 关闭系统默认安全防护 关闭防火墙 systemctl stop firewalld && systemctl disable firewalld && systemctl status firewalld 关闭SELinux.md ssh 使用密钥登陆 node1 到其他节点即可,配置参考文档: Linux SSH 使用密钥登陆.md 所有节点使用相同的密码,在安装的时候使用密码操作。 机器间时钟同步 所有节点时间必须一致,配置参考文档: Linux 配置时钟同步.md PG数据库 可以选择的数据有多种,这里使用PG,配置参考文档: PostgreSQL 安装之 CentOS 7 x64 RPM 安装.md 注意开启远程访问,使每个节点都能访问到数据库。 注意安装驱动程序。

09-大数据入门一

时光毁灭记忆、已成空白 提交于 2019-12-05 14:27:38
Hadoop [翻译大象] 广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink....) 狭义: apache hadoop软件 以后这些网站经常用到 hadoop.apache.org hive.apache.org spark.apache.org hadoop软件: 1.x 企业不用 2.x 主流 3.x 很少敢用 坑 只能自己踩[应为hadoop需要和别的生态圈结合,他们可能是不同的公司开发] 但是CDH(www.cloudera.com) ,CDH它能解决的问题: 1. 版本兼容 2.统一的部署管理 很受企业欢迎[应为它可以通过web页面进行点下一步就部署了],和CDH相同的另一个是华为的HDP 上面的CDH或者HDP是拿apache的hadoop源代码 ,封装成自己的hadoop版本 ,且自己打补丁 CDH有收费版和免费版本, 收费 的它提供一些技术支持,和一些统计功能, 不过免费的在企业可以用,联通或者移动也在用免费版本. http://archive.cloudera.com/cdh5/cdh/5/ 这个CDH封装的一些组件地址 hadoop-2.6.0-cdh5.7.0.tar.gz 280M hadoop-2.6.0-cdh5.16.2.tar.gz 400M hive-1.1.0-cdh5.16.2.tar.gz