cdh | 易学教程

CDH使用之CDH 5.3.x安装

阅读更多关于 CDH使用之CDH 5.3.x安装

前言：CDH是由Cloudera公司发行的Hadoop版本，全称（Cloudera's Distribution Including Apache Hadoop）。该版本基于原生Apache Hadoop版本进行改进，添加了补丁和自行开发的组件，更加稳定易用。并且Cloudera公司已将CDH开源，可以不依靠CM也可以进行独立安装，目前来看在国内市场占有比重较大。本文采用CM方式进行安装，安装环境为CentOS6.5，暂不介绍独立安装方式安装。安装准备介质准备本文采用parcel包方式安装，需要下载相关的3个文件。 parcel包地址： http://archive-primary.cloudera.com/cdh5/parcels/5.3.2/ 需要下载如下三个文件如果采用rpm方式安装，地址为： http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.3.2/ 系统配置 a) 用户创建 CDH安装建议使用普通用户进行安装，使用root用户安装也可以，安装完成之后如果有其他新普通用户需要使用时，添加到对应的hadoop用户组(默认组为supergroup)即可。创建用户 # useradd <用户名称> 修改密码 # passwd <用户名称> b) host配置安装CDH集群之前，必须配置hosts

CDH使用Solr实现HBase二级索引

阅读更多关于 CDH使用Solr实现HBase二级索引

一、为什么要使用Solr做二级索引二、实时查询方案三、部署流程 3.1 安装HBase、Solr 3.2 增加HBase复制功能 3.3创建相应的 SolrCloud 集合 3.4 创建 Lily HBase Indexer 配置 3.5创建 Morphline 配置文件 3.6 注册 Lily HBase Indexer Configuration 和 Lily HBase Indexer Service 3.7 同步数据 3.8批量同步索引 3.9 设置多个indexer 四、数据的增删改查 4.1 增加 4.2更新 4.3删除 4.4 总结五、扩展命令六、F&Q 6.1创建indexer失败，原来indexer已经存在 6.2创建indexer失败 6.3使用自带的indexer工具批量同步索引失败,提示找不到morphlines.conf 6.4使用自带的indexer工具批量同步索引失败,提示找不到solrconfig.xml 6.5使用自带的indexer工具批量同步索引失败,提示找不到Java heap space 6.6 HBaseIndexer启动后一会儿就自动退出 6.7 HBaseIndexer同步的数据与Solr不一致 6.8 出现了6.7的问题之后，修改了read-row="never"后，丢失部分字段一、为什么要使用Solr做二级索引

CDH从零开始快速安装法

阅读更多关于 CDH从零开始快速安装法

环境：（全程root用户操作，如果是非root用户需要sudo权限）云服务器-centos7.2，2CPU+8G内存+100G磁盘 * 3 （我把hostname分别命名为：data-1、data-2、data-3） CDH准备安装5.16.2版本 mysql准备安装5.7版本开工，CDH在线安装~~~ 【准备工作】 1.1 命令：ssh-keygen，为了免密操作：把三台机器的公钥(~/.ssh/id_rsa.pub)都写入到三台机器的~/.ssh/authorized_keys中。 1.2 配置/etc/hosts，为了机器间互相用hostname访问方便（如果用内网ip访问的话可以不配置） 1.3 安装ntp，用于时间同步（如果各个机器上的时间不一致，集群会有各种问题）。【教程见附录--ntp配置】 1.4 安装mysql，用于存储集群的元数据（不多说。。。练手的话可以直接用内置的PSQL存储元数据）【教程见附录--mysql5.7配置】 1.5 去mysql官网下载驱动：cp mysql-connector-java-5.1.39-bin.jar /usr/share/java/mysql-connector-java（/usr/share/java/mysql-connector-java必须是这个路径、这个名字否则CDH无法识别）【傻瓜式安装CDH -->

CDH 安装遇到的问题

阅读更多关于 CDH 安装遇到的问题

CDH 遇到的问题 l JAVA_HOME 问题这里，很明显可以看到， JAVA_HOME 并没有设置成功。using as ... 感觉完全就是没有设置JAVA_HOME 这个环境变量。可是呢？我确实是设置了JAVA_HOME 的，而且在linux shell 执行 echo $JAVA_HOME 也是有输出的。百思不得其解。后面偶然注意到，其实是Bigtop 的原因：由于CDH不会使用系统默认JAVA_HOME环境变量，而是使用Bigtop进行管理，故我们需要安装Bigtop的规则在指定的位置安装jdk。配置在这里： cloudera-manager-centos7-cm5.11.1_x86_64\cm-5.11.1\lib64\cmf\service\common\cloudera-config.sh 其中可以看到： local JAVA8_HOME_CANDIDATES=( '/usr/java/jdk1.8' '/usr/java/jre1.8' '/usr/lib/jvm/j2sdk1.8-oracle' '/usr/lib/jvm/j2sdk1.8-oracle/jre' '/usr/lib/jvm/java-8-oracle' ) 于是，建立一个已经有的JAVA_HOME 链接到 /usr/java/jdk1.8 就好了！ l M ysql-jdbc

【原创】大叔经验分享（57）hue启动coordinator时报错

阅读更多关于【原创】大叔经验分享（57）hue启动coordinator时报错

hue启动coordinator时报错，页面返回undefinied错误框：后台日志报错： runcpserver.log [13/May/2019 04:34:55 -0700] middleware INFO Processing exception: 'NoneType' object has no attribute 'is_superuser': Traceback (most recent call last): File "/opt/cloudera/parcels/CDH-5.16.1-1.cdh5.16.1.p0.3/lib/hue/build/env/lib/python2.7/site-packages/Django-1.6.10-py2.7.egg/django/core/handlers/base.py", line 112, in get_response response = wrapped_callback(request, *callback_args, **callback_kwargs) File "/opt/cloudera/parcels/CDH-5.16.1-1.cdh5.16.1.p0.3/lib/hue/build/env/lib/python2.7/site-packages/Django-1.6.10-py2.7.egg

启动CDH的cloudera-scm-server报错Error: JAVA_HOME is not set and Java could not be found

阅读更多关于启动CDH的cloudera-scm-server报错Error: JAVA_HOME is not set and Java could not be found

错误截图错误分析启动脚本中找不到JAVA_HOME 查看一下启动脚本 find / - name 'cloudera-scm-server' 进去看看发现里面需要读取profile文件但是我配的是在/etc/profile.d文件夹下的 java.sh profile文件中没有JAVA_HOME 我把java.sh独立出来了解决方案将JAVA_HOME配到/etc/profile文件中再次启动 ok! 来源： CSDN 作者：王傲旗的大数据之路链接： https://blog.csdn.net/weixin_43893397/article/details/104728745

CDH升级Spark2异常java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

阅读更多关于 CDH升级Spark2异常java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

最近为了适配客户版本，搭建了CDH5.16版本的数据数据环境。而默认的Spark是1.6版本的，为配合客户需要升级成Spark2，由于机器资源有限制，先把Spark1.6删除了，下载SPARK2-2.1.0.cloudera3-1.cdh5.13.3.p0.569822-el7.parcel包，进行了安装。安装完成之后，运行Spark的相关命令就报java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream异常，我使用的命令是spark2-submit时报错，其实所有Spark相关命令都是一样的错误。特别需要注意是：使用Spark的命令的机器需要安装Gateway组件，然后需要deploy client configuration(部署客户端配置）。个人认为既然使用CDH Manager，如果还去机器上直接改配置的，那还要CDH Manager干啥？网上有很多答案，都说教人要改这改那的，这命令那么命令的，可能别人也没搞明白为啥会出那样的问题。错误信息如下： [root@hadoop60 ~]# spark2-submit Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs

Zookeeper、Hdfs配置kerberos认证

阅读更多关于 Zookeeper、Hdfs配置kerberos认证

一、Zookeeper配置kerberos认证 1、环境说明根据之前的组件安排如下： 172.16.57.74 bd-ops-test-74 kdc zookeeper-client 172.16.57.75 bd-ops-test-75 zookeeper 172.16.57.76 bd-ops-test-76 zookeeper 172.16.57.77 bd-ops-test-77 zookeeper 2、配置 ZooKeeper Server 2.1生成keytab 在 74 节点，即 KDC server 节点上执行下面命令： kadmin.local -q "addprinc -randkey zookeeper/bd-ops-test-75@BIGDATA.COM " kadmin.local -q "addprinc -randkey zookeeper/bd-ops-test-76@BIGDATA.COM " kadmin.local -q "addprinc -randkey zookeeper/bd-ops-test-77@BIGDATA.COM " kadmin.local -q "xst -k zookeeper.keytab zookeeper/bd-ops-test-75@BIGDATA.COM " kadmin.local -q "xst -k

presto搭建mysql

阅读更多关于 presto搭建mysql

root @cdh soft]# cd presto-server-0.216/ [root @cdh presto-server-0.216]# ls bin lib NOTICE plugin README.txt mkdir data && mkdir etc [root @cdh etc]# vi config.properties coordinator=true node-scheduler.include-coordinator=true http-server.http.port=34445 query.max-memory=1GB query.max-memory-per-node=1GB query.max-total-memory-per-node=1GB discovery-server.enabled=true discovery.uri=http://127.0.0.1:34445 [root @cdh etc]# vi node.properties node.environment=production node.id=prestomaster node.data-dir=/root/soft/presto-server-0.212/data [root @cdh etc]# vi jvm.config -server -Xmx16G -XX:

在CDH中配置lzo压缩

阅读更多关于在CDH中配置lzo压缩

一、各种压缩格式性能对比压缩能够减少存储磁盘空间，降低网络IO和磁盘IO，加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度。虽然由以上的好处，但是由于使用数据时，需要先将数据解压，加重了CPU负荷。根据我们的实际工作场景，我们要选择合适的压缩格式。常见的压缩格式如下：下面是一份源数据1.4G的文件，各类压缩格式的比率和时间对比数据压缩后大小：压缩和解压时间：从上面对比可以看出：在压缩数据比上： Snappy、LZ4、LZO可以压缩到50%左右 GZIP、BZIP2可以压缩到30%左右在压缩和解压时间上： Snappy、LZ4、LZO 的压缩时间非常接近，范围6-8秒内；Snappy的解压时间是最高的，是压缩时间的3倍，其次是LZO，LZ4解压时间最低 GZIP、BZIP2 的压缩和解压时间都非常高。总结一句话就是：压缩比率高的，压缩和解压时间花费就比较长。那么我们如何选择合适的压缩格式呢？ Snappy ：压缩速度快；支持hadoop native库缺点：不支持split；压缩比低；hadoop本身不支持，需要安装；linux系统下没有对应的命令d. LZO ：压缩/解压速度也比较快，合理的压缩率；支持split，是hadoop中最流行的压缩格式；支持hadoop native库；需要在linux系统下自行安装lzop命令，使用方便缺点：

订阅 cdh