cdh

CDH使用之CDH 5.3.x安装

混江龙づ霸主 提交于 2020-04-07 11:08:27
前言:CDH是由Cloudera公司发行的Hadoop版本,全称(Cloudera's Distribution Including Apache Hadoop)。该版本基于原生Apache Hadoop版本进行改进,添加了补丁和自行开发的组件,更加稳定易用。并且Cloudera公司已将CDH开源,可以不依靠CM也可以进行独立安装,目前来看在国内市场占有比重较大。本文采用CM方式进行安装,安装环境为CentOS6.5,暂不介绍独立安装方式安装。 安装准备 介质准备 本文采用parcel包方式安装,需要下载相关的3个文件。 parcel包地址: http://archive-primary.cloudera.com/cdh5/parcels/5.3.2/ 需要下载如下三个文件 如果采用rpm方式安装,地址为: http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.3.2/ 系统配置 a) 用户创建 CDH安装建议使用普通用户进行安装,使用root用户安装也可以,安装完成之后如果有其他新普通用户需要使用时,添加到对应的hadoop用户组(默认组为supergroup)即可。 创建用户 # useradd <用户名称> 修改密码 # passwd <用户名称> b) host配置 安装CDH集群之前,必须配置hosts

CDH使用Solr实现HBase二级索引

五迷三道 提交于 2020-04-06 13:12:22
一、为什么要使用Solr做二级索引 二、实时查询方案 三、部署流程 3.1 安装HBase、Solr 3.2 增加HBase复制功能 3.3创建相应的 SolrCloud 集合 3.4 创建 Lily HBase Indexer 配置 3.5创建 Morphline 配置文件 3.6 注册 Lily HBase Indexer Configuration 和 Lily HBase Indexer Service 3.7 同步数据 3.8批量同步索引 3.9 设置多个indexer 四、数据的增删改查 4.1 增加 4.2更新 4.3删除 4.4 总结 五、 扩展命令 六、F&Q 6.1创建indexer失败,原来indexer已经存在 6.2创建indexer失败 6.3使用自带的indexer工具批量同步索引失败,提示找不到morphlines.conf 6.4使用自带的indexer工具批量同步索引失败,提示找不到solrconfig.xml 6.5使用自带的indexer工具批量同步索引失败,提示找不到Java heap space 6.6 HBaseIndexer启动后一会儿就自动退出 6.7 HBaseIndexer同步的数据与Solr不一致 6.8 出现了6.7的问题之后,修改了read-row="never"后,丢失部分字段 一、为什么要使用Solr做二级索引

CDH从零开始快速安装法

允我心安 提交于 2020-04-06 01:10:38
环境:(全程root用户操作,如果是非root用户需要sudo权限) 云服务器-centos7.2,2CPU+8G内存+100G磁盘 * 3 (我把hostname分别命名为:data-1、data-2、data-3) CDH准备安装5.16.2版本 mysql准备安装5.7版本 开工,CDH在线安装~~~ 【准备工作】 1.1 命令:ssh-keygen,为了免密操作:把三台机器的公钥(~/.ssh/id_rsa.pub)都写入到三台机器的~/.ssh/authorized_keys中。 1.2 配置/etc/hosts,为了机器间互相用hostname访问方便(如果用内网ip访问的话可以不配置) 1.3 安装ntp,用于时间同步(如果各个机器上的时间不一致,集群会有各种问题)。【教程见附录--ntp配置】 1.4 安装mysql,用于存储集群的元数据(不多说。。。练手的话可以直接用内置的PSQL存储元数据)【教程见附录--mysql5.7配置】 1.5 去mysql官网下载驱动:cp mysql-connector-java-5.1.39-bin.jar /usr/share/java/mysql-connector-java(/usr/share/java/mysql-connector-java必须是这个路径、这个名字否则CDH无法识别) 【傻瓜式安装CDH -->

CDH 安装遇到的问题

◇◆丶佛笑我妖孽 提交于 2020-03-18 03:19:51
CDH 遇到的问题 l JAVA_HOME 问题 这里, 很明显可以看到, JAVA_HOME 并没有设置成功。using as ... 感觉完全就是没有设置JAVA_HOME 这个环境变量。可是呢? 我确实是设置了JAVA_HOME 的,而且在linux shell 执行 echo $JAVA_HOME 也是有输出的。 百思不得其解。 后面偶然注意到, 其实是Bigtop 的原因: 由于CDH不会使用系统默认JAVA_HOME环境变量,而是使用Bigtop进行管理,故我们需要安装Bigtop的规则在指定的位置安装jdk。 配置在这里: cloudera-manager-centos7-cm5.11.1_x86_64\cm-5.11.1\lib64\cmf\service\common\cloudera-config.sh 其中可以看到: local JAVA8_HOME_CANDIDATES=( '/usr/java/jdk1.8' '/usr/java/jre1.8' '/usr/lib/jvm/j2sdk1.8-oracle' '/usr/lib/jvm/j2sdk1.8-oracle/jre' '/usr/lib/jvm/java-8-oracle' ) 于是,建立一个已经有的JAVA_HOME 链接到 /usr/java/jdk1.8 就好了! l M ysql-jdbc

【原创】大叔经验分享(57)hue启动coordinator时报错

不问归期 提交于 2020-03-10 11:16:29
hue启动coordinator时报错,页面返回undefinied错误框: 后台日志报错: runcpserver.log [13/May/2019 04:34:55 -0700] middleware INFO Processing exception: 'NoneType' object has no attribute 'is_superuser': Traceback (most recent call last): File "/opt/cloudera/parcels/CDH-5.16.1-1.cdh5.16.1.p0.3/lib/hue/build/env/lib/python2.7/site-packages/Django-1.6.10-py2.7.egg/django/core/handlers/base.py", line 112, in get_response response = wrapped_callback(request, *callback_args, **callback_kwargs) File "/opt/cloudera/parcels/CDH-5.16.1-1.cdh5.16.1.p0.3/lib/hue/build/env/lib/python2.7/site-packages/Django-1.6.10-py2.7.egg

启动CDH的cloudera-scm-server报错Error: JAVA_HOME is not set and Java could not be found

情到浓时终转凉″ 提交于 2020-03-08 12:48:46
错误截图 错误分析 启动脚本中 找不到JAVA_HOME 查看一下启动脚本 find / - name 'cloudera-scm-server' 进去看看 发现里面需要读取profile文件 但是我配的是在/etc/profile.d文件夹下的 java.sh profile文件中没有JAVA_HOME 我把java.sh独立出来了 解决方案 将JAVA_HOME配到/etc/profile文件中 再次启动 ok! 来源: CSDN 作者: 王傲旗的大数据之路 链接: https://blog.csdn.net/weixin_43893397/article/details/104728745

CDH升级Spark2异常java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

安稳与你 提交于 2020-03-04 16:43:27
最近为了适配客户版本,搭建了CDH5.16版本的数据数据环境。而默认的Spark是1.6版本的,为配合客户需要升级成Spark2,由于机器资源有限制,先把Spark1.6删除了,下载SPARK2-2.1.0.cloudera3-1.cdh5.13.3.p0.569822-el7.parcel包,进行了安装。安装完成之后,运行Spark的相关命令就报java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream异常,我使用的命令是spark2-submit时报错,其实所有Spark相关命令都是一样的错误。 特别需要注意是: 使用Spark的命令的机器需要安装Gateway组件,然后需要deploy client configuration(部署客户端配置)。 个人认为既然使用CDH Manager,如果还去机器上直接改配置的,那还要CDH Manager干啥?网上有很多答案,都说教人要改这改那的,这命令那么命令的,可能别人也没搞明白为啥会出那样的问题。 错误信息如下 : [root@hadoop60 ~]# spark2-submit Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs

Zookeeper、Hdfs配置kerberos认证

一世执手 提交于 2020-02-29 15:47:04
一、Zookeeper配置kerberos认证 1、环境说明 根据之前的组件安排如下: 172.16.57.74 bd-ops-test-74 kdc zookeeper-client 172.16.57.75 bd-ops-test-75 zookeeper 172.16.57.76 bd-ops-test-76 zookeeper 172.16.57.77 bd-ops-test-77 zookeeper 2、配置 ZooKeeper Server 2.1生成keytab 在 74 节点,即 KDC server 节点上执行下面命令: kadmin.local -q "addprinc -randkey zookeeper/bd-ops-test-75@BIGDATA.COM " kadmin.local -q "addprinc -randkey zookeeper/bd-ops-test-76@BIGDATA.COM " kadmin.local -q "addprinc -randkey zookeeper/bd-ops-test-77@BIGDATA.COM " kadmin.local -q "xst -k zookeeper.keytab zookeeper/bd-ops-test-75@BIGDATA.COM " kadmin.local -q "xst -k

presto搭建mysql

試著忘記壹切 提交于 2020-02-26 09:24:00
root @cdh soft]# cd presto-server-0.216/ [root @cdh presto-server-0.216]# ls bin lib NOTICE plugin README.txt mkdir data && mkdir etc [root @cdh etc]# vi config.properties coordinator=true node-scheduler.include-coordinator=true http-server.http.port=34445 query.max-memory=1GB query.max-memory-per-node=1GB query.max-total-memory-per-node=1GB discovery-server.enabled=true discovery.uri=http://127.0.0.1:34445 [root @cdh etc]# vi node.properties node.environment=production node.id=prestomaster node.data-dir=/root/soft/presto-server-0.212/data [root @cdh etc]# vi jvm.config -server -Xmx16G -XX:

在CDH中配置lzo压缩

二次信任 提交于 2020-02-13 17:23:26
一、各种压缩格式性能对比 压缩能够减少存储磁盘空间,降低网络IO和磁盘IO,加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。 虽然由以上的好处,但是由于使用数据时,需要先将数据解压,加重了CPU负荷。根据我们的实际工作场景,我们要选择合适的压缩格式。 常见的压缩格式如下: 下面是一份源数据1.4G的文件,各类压缩格式的比率和时间对比 数据压缩后大小: 压缩和解压时间: 从上面对比可以看出: 在压缩数据比上: Snappy、LZ4、LZO可以压缩到50%左右 GZIP、BZIP2可以压缩到30%左右 在压缩和解压时间上: Snappy、LZ4、LZO 的压缩时间非常接近,范围6-8秒内;Snappy的解压时间是最高的,是压缩时间的3倍,其次是LZO,LZ4解压时间最低 GZIP、BZIP2 的压缩和解压时间都非常高。 总结一句话就是: 压缩比率高的,压缩和解压时间花费就比较长。 那么我们如何选择合适的压缩格式呢? Snappy :压缩速度快;支持hadoop native库 缺点:不支持split;压缩比低;hadoop本身不支持,需要安装;linux系统下没有对应的命令d. LZO :压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式; 支持hadoop native库;需要在linux系统下自行安装lzop命令,使用方便 缺点: