cdh | 易学教程

CDH集成Kylin

阅读更多关于 CDH集成Kylin

CDH集成Kylin 下载地址：下载CDH5版本Kylin 一、安装启动 1. 上传并解压下载的tar包 tar -zxvf apache-kylin-2.6.4-bin-cdh57.tar.gz -C /opt/cdh-5.15.2 mv apache-kylin-2.6.4-bin-cdh57 kylin-2.6.4 2. 配置环境变量注意：Spark作为Kylin启动的一项环境检查，无论是否使用Spark作为Kylin的构建引擎，都需要集群安装Spark sudo vim /etc/profile # # SPARK_HOME export SPARK_HOME = /opt/cdh-5.15.2/cloudera/parcels/SPARK2/lib/spark2 export PATH = $PATH : $SPARK_HOME /sbin # # KYLIN_HOME export KYLIN_HOME = /opt/cdh-5.15.2/kylin-2.6.4 export PATH = $PATH :KYLIN_HOME/bin # # 重加载文件生效 source /etc/profile 3. 修改配置文件 vim $KYLIN_HOME /conf/kylin.properties # # 修改： kylin.server.cluster-servers

离线安装 Cloudera ( CDH 5.x )

阅读更多关于离线安装 Cloudera ( CDH 5.x )

要配置生产环境前，最好严格按照官方文档/说明配置环境。比如，官方说这个安装包用于RETHAT6, CENTOS6，那就要装到6的版本下，不然很容易出现各种各样的错。配置这个CDH5我入了很多坑，最重要的有2点 1. HP GEN9 DL60服务器装CentOS系统, 开始想装7的版本, 官方只说支持到6. 经过各种折腾确实装好了（后面会单开一章写服务器装CentOS7） 2. CDH暂不官方支持CentOS 7, 查到国外有人是安装成功了,但是会有各种小问题需要息解决. 如7带的是python2.7, 而CDH5还是用的2.6, 所以会有包缺失. 所以最终我还是把我的服务器重装回6.5了 ==================准备安装========================== 1. 查看并下载最新的CDH版本: http://archive.cloudera.com/cdh5/parcels/latest/ ( 20150530时还是5.3.3的版本), 如果是CentOS6, 则下载带el6的 . 　　需要下载的文件有三个, 对应的parcel, parcel.sha1, manifest.json 下载完.sha1后改后缀为.sha 2. 下载对应的CM版本: http://archive-primary.cloudera.com/cm5/cm/5/

CDH5.11.2安装启动hive 启动失败解决办法

阅读更多关于 CDH5.11.2安装启动hive 启动失败解决办法

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1,通过Cloudera Manager添加Hive服务，在启动Hive的时候遇到错误： .org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driver 这种情况，猜测是缺少jdbc驱动，于是添加jdbc驱动到相应的包下面。报的错中提示了lib路径，添加一下即可。 mysql-connector-java-5.1.36-bin.jar添加到hive的lib： /opt/cloudera/parcels/CDH-5.4.7-1.cdh5.4.7p0.36/lib/hive/lib 2，启动之后报错：org.apache.hadoop.hive.metastore.HiveMeta MetaException(message:Version infomation not found int metastore) 这个是hive中没有版本信息，是经常碰到的。因为首次使用hive，没有相应的版本信息。 .修改conf/hive-site.xml 中的 “hive.metastore.schema.verification” 值为 false 即可解决 MetaException(message:Version information

CDH5.8.3 安装部署

阅读更多关于 CDH5.8.3 安装部署

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> hadoop的发展真快！倒不是想吹各种功能，只是很多命令、特性都在不断变化。比如以前使用的一些命令，这些命令还堂而皇之地出现在各式hadoop宝书上呢，在不断更新的hadoop面前，时不时的已经被提示Depreciated的了。并且，安装部署的东西就像是大学英语六级一样，时间一长，任凭你玩了几年的hadoop都一样可能被一下细节小地方设置错误或者漏掉。还有就是，一些配置过去只是照搬这各类书籍、博文的个代码示例粘来粘去，每一个配置文件的属性没有安心整理过一次。所以，本文趁着最近刚买了个msi，部署环境的机会，再写一篇安装部署CDH的文章。先去下载个CHD5.8.3。我写这篇博文的时候，其实最新的是5.9.0。根据中国公司的习惯，咱就是不用最新的，气死自己。：）不过，这里我倒是想把下载地址写一下，请用这个：http://archive.cloudera.com/cdh5/cdh/5/ 不要去官网上的的下载链接，超级烦，填表单、链接一级级点下去。就用上面这个archive的。下了之后将hadoop-2.6.0-cdh5.8.3.tar.gz复制到/opt下，所有用户都可见。解压。啰嗦一下。openjdk卸掉它，记得当初第一次部署hadoop的时候我嫌麻烦，将就着用openjdk了，并且起初一切很正常

CDH 5.16.1 离线安装 Spark 2.3

阅读更多关于 CDH 5.16.1 离线安装 Spark 2.3

1.环境 CDH 5.16.1 Centos 7.6 Scala 2.11.8 2.安装前准备 1.下载 Spark2.3 所需的Parcel包 http://archive.cloudera.com/spark2/parcels/2.3.0.cloudera4/ 将三个文件拷贝到 /opt/cloudera/parcel-repo 目录下，如果有有相同文件,就将之前的文件重命名 2.下载Spark 的csd 包 http://archive.cloudera.com/spark2/csd/ 将 SPARK2_ON_YARN-2.3.0.cloudera4.jar 拷贝到 /opt/cloudera/csd 目录中 3.重启CM和集群 4.安装Spark 依次点击 “主机” --> “parcel” --> “检查新parcel” --> “分配” --> “激活” 5.问题 1.启动Spark2-shell报错解决办法：修改 yarn.scheduler.maximum-allocation-mb 和 yarn.nodemanager.resource.memory-mb的默认值为2G 来源： https://www.cnblogs.com/wuning/p/12022728.html

CDH5.3.2中配置运行Spark SQL的Thrift Server

阅读更多关于 CDH5.3.2中配置运行Spark SQL的Thrift Server

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 一，环境信息 CDH集群，Cloudera Manager5安装部署CDH5.X详细请见： http://blog.csdn.net/freedomboy319/article/details/44804721 二，在CDH5.3.2中配置运行 Spark SQL的Thrift Server 1，root用户登录CDH5.3.2集群中的某一个节点 2，cd /opt/cloudera/parcels/CDH/lib/spark/sbin 执行./start-thriftserver.sh –help 3，执行./start-thriftserver.sh 4，进入/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/spark/logs目录，查看日志文件spark-root- org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-1-cdh- node3.grc.out，发现报如下错： Spark Command: /usr/java/jdk1.7.0_67-cloudera/bin/java -cp ::/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0

CDH中添加的Kafka消息不能同步[爬坑过程+总结解决]

阅读更多关于 CDH中添加的Kafka消息不能同步[爬坑过程+总结解决]

首先通过这篇博客我们可以在CDH中安装好Kafka： CDH添加Kafka服务上面安装好Kafka已经可以创建Topic，并且Topic信息所搭建的集群均可以同步。后面因为还需要测试一下消息传输，发现开启了生产者与消费者后，在生产者发送消息到Topic时报超时，并且消费者也一直没有接受到数据。然后后面一直在解决这个问题到后面一直报异常输出 WARN clients.NetworkClient ，还重新装kafka了三次。中间因为数据删除不干净连kafka都启动不了了，弄来弄去了三四天，今天终于解决了。总结一下，若也遇到这样的问题后来者提供一些解决思路。首先先看一下kafka的发布订阅系统的代理结构：一、遇到问题首先打开生产者： kafka-console-producer --broker-list cluster2-1:2181,cluster2-2:2181,cluster2-3:2181,cluster2-4:2181 --topic test 现在再看这个指令挺可笑的。。。 kafka的端口号应该是9092 ，我这里跟zookeeper的端口号没理解一直弄混了，后面有提到。不过还是要把之前的问题还原一下，有端口问题的同学可以尽快改过来再试试可以成功了吗。打开消费者： kafka-console-consumer --bootstrap-server

CDH集群中YARN的参数配置

阅读更多关于 CDH集群中YARN的参数配置

CDH 集群中 YARN 的参数配置前言： Hadoop 2.0 之后，原先的 MapReduce 不在是简单的离线批处理 MR 任务的框架，升级为 MapReduceV2 （ Yarn ）版本，也就是把资源调度和任务分发两块分离开来。而在最新的 CDH 版本中，同时集成了 MapReduceV1 和 MapReduceV2 （ Yarn ）两个版本，如果集群中需要使用 Yarn 做统一的资源调度，建议使用 Yarn 。 CDH 对 Yarn 的部分参数做了少了修改，并且添加了相关的中文说明，本文着重介绍了 CDH 中相比 MapReduceV1 一些参数改动的配置。一、 CPU 配置 ApplicationMaster 虚拟 CPU 内核 yarn.app.mapreduce.am.resource.cpu-vcores // ApplicationMaster 占用的 cpu 内核数（ Gateway-- 资源管理）容器虚拟 CPU 内核 yarn.nodemanager.resource.cpu-vcores // 单个 NodeManager 最大能分配的 cpu 核数（ NodeManager -- 资源管理）结论：当前 nodemanager 申请的 ApplicationMaster 数总和小于 nodemanager 最大 cpu 内核数二

03 - CDH 6.3.x 安装

阅读更多关于 03 - CDH 6.3.x 安装

CDH 6.3.x 离线安装环境 CDH 6.3.1 CentOS 7 官方文档修改主机名，配置host文件 # 根据个人需要修改主机名称 hostnamectl set-hostname node1 hostnamectl set-hostname node2 hostnamectl set-hostname node3 # 修改每个主机的 host 文件 vi /etc/hosts 172.16.1.181 node1 172.16.1.182 node2 172.16.1.183 node3 关闭系统默认安全防护关闭防火墙 systemctl stop firewalld && systemctl disable firewalld && systemctl status firewalld 关闭SELinux.md ssh 使用密钥登陆 node1 到其他节点即可，配置参考文档： Linux SSH 使用密钥登陆.md 所有节点使用相同的密码，在安装的时候使用密码操作。机器间时钟同步所有节点时间必须一致，配置参考文档： Linux 配置时钟同步.md PG数据库可以选择的数据有多种，这里使用PG，配置参考文档： PostgreSQL 安装之 CentOS 7 x64 RPM 安装.md 注意开启远程访问，使每个节点都能访问到数据库。注意安装驱动程序。

09-大数据入门一

阅读更多关于 09-大数据入门一

Hadoop [翻译大象] 广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink....) 狭义: apache hadoop软件以后这些网站经常用到 hadoop.apache.org hive.apache.org spark.apache.org hadoop软件: 1.x 企业不用 2.x 主流 3.x 很少敢用坑只能自己踩[应为hadoop需要和别的生态圈结合，他们可能是不同的公司开发] 但是CDH(www.cloudera.com) ，CDH它能解决的问题: 1. 版本兼容 2.统一的部署管理很受企业欢迎[应为它可以通过web页面进行点下一步就部署了]，和CDH相同的另一个是华为的HDP 上面的CDH或者HDP是拿apache的hadoop源代码，封装成自己的hadoop版本，且自己打补丁 CDH有收费版和免费版本，收费的它提供一些技术支持，和一些统计功能，不过免费的在企业可以用，联通或者移动也在用免费版本. http://archive.cloudera.com/cdh5/cdh/5/ 这个CDH封装的一些组件地址 hadoop-2.6.0-cdh5.7.0.tar.gz 280M hadoop-2.6.0-cdh5.16.2.tar.gz 400M hive-1.1.0-cdh5.16.2.tar.gz

订阅 cdh