cdh | 易学教程

管理 Impala（部分翻译）

阅读更多关于管理 Impala（部分翻译）

管理 Impala 作为管理员，你应监视 Impala 的资源使用情况，必要时采取行动以保证 Impala 平衡运行，避免与统一集群里的其他 Haoopd 组件冲突。当检测到已发生或将发生的问题时，你应重新配置 Impala 或其他组件，如HDFS乃至集群中的硬件，来解决或避免问题的发生。继续阅读：使用 Impala 资源管理器[仅支持CDH5] 管理 Impala 数据的硬盘空间设置查询与会话的超时时间作为管理员，你可以在集群的所有机器上执行 Impala 的安装、升级、配置任务。参见 Installing Cloudera Impala , Upgrading Impala , Configuring Impala 了解详细信息。对于由管理员执行的额外的安全任务，参见 Impala Security 了解详细信息。使用 Impala 资源管理器 [仅支持 CDH 5] You can limit the CPU and memory resources used by Impala, to manage and prioritize workloads on clusters that run jobs from many Hadoop components. (Currently, there is no limit or throttling on the I

Cloudera/CDH v6.1.x + Python HappyBase v1.1.0: TTransportException(type=4, message='TSocket read 0 bytes')

阅读更多关于 Cloudera/CDH v6.1.x + Python HappyBase v1.1.0: TTransportException(type=4, message='TSocket read 0 bytes')

可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效，请关闭广告屏蔽插件后再试): 问题: EDIT: This question and answer applies to anyone who is experiencing the exception stated in the subject line: TTransportException(type=4, message='TSocket read 0 bytes') ; whether or not Cloudera and/or HappyBase is involved. The root issue (as it turned out) stems from mismatching protocol and/or transport formats on the client-side with what the server-side is implementing, and this can happen with any client/server paring. Mine just happened to be Cloudera and HappyBase, but yours needn't be and you can run into this same issue. Has

手动安装 Cloudera Manager Tarballs

阅读更多关于手动安装 Cloudera Manager Tarballs

一、安装前准备 1、安装配置数据库查看 Cloudera Manager and Managed Service Data Stores . 安装配置数据库，文档点击这里 MySQL Database , Oracle Database , or External PostgreSQL Database 2、(仅CDH 5) 在RHEL 5 和 CentOS 5, 安装Python 2.6 or 2.7 二、安装Cloudera Manager和Agents 下载tarball包，地址： Cloudera Manager Version and Download Information . 拷贝tarball包到所有机器并解压： $ sudo mkdir /opt/cloudera-manager $ sudo tar xzf cloudera-manager*.tar.gz -C /opt/cloudera-manager 文件被解压到一个名字与 Cloudera Manager 版本相符的子目录。比如： /opt/cloudera-manager/cm-5.0/ . 这个全路径后面会用到， tarball_root 目录. 1、Perform Configuration Required by Single User Mode单用户模式所需的配置

手动安装Cloudera Manager Packages

阅读更多关于手动安装Cloudera Manager Packages

一、Before You Begin 1、Perform Configuration Required by Single User Mode If you are creating a Cloudera Manager deployment that employs single user mode, perform the configuration steps described in Single User Mode Requirements . 2、(CDH 5 only) On RHEL 5 and CentOS 5, Install Python 2.6 or 2.7 CDH 5 Hue will only work with the default system Python version of the operating system it is being installed on. For example, on RHEL/CentOS 6 you will need Python 2.6 to start Hue. To install packages from the EPEL repository, download the appropriate repository rpm packages to your machine and then

hive记录-cdh配置hive和sentry

阅读更多关于 hive记录-cdh配置hive和sentry

1.cdh添加组件-sentry-选择主机-配置数据库 2.配置数据库 1）mysql -uroot -p DEFAULT CHARSET utf8 COLLATE utf8_general_ci ; 3) grant all privileges on sentry.* to root@‘%‘ identified by ‘123‘ with grant option; 选择mysql数据库主机、用户名、密码、需要将mysql jdbc驱动拷贝到对应主机下的cm/share/cmf/lib和/opt/cloudera/parcels/CDH-5.10.2-1.cdh5.10.2.p0.5/lib/sentry/lib 测试连接-下一步-创建数据库表，开启sentry服务 3.hive配置下勾选sentry和hue配置勾选sentry 4.重启hive和hue 5.beeline登录进行授权角色 beeline -u "jdbc:hive2://hadoop03:10000/" -n hive -p hive -d org.apache.hive.jdbc.HiveDriver 1)创建角色并授权给组执行下面的 sql 语句创建 role、group等： create role admin_role; GRANT ALL ON SERVER server1 TO ROLE

CDH集成kafka

阅读更多关于 CDH集成kafka

阅读完请点击添加kafka（把包放到cm主机目录） http://archive.cloudera.com/kafka/parcels/latest/ 2.下载csd包 http://archive.cloudera.com/csds/kafka/ 放到csd目录 3.分配kafka包并激活注意：如果进度卡在“已解压”，直接返回重新进来就会看到“激活” 4添加kafka角色可根据需求填写各选项（我这里直接默认）以下是容易踩坑的安装后启动报错“ Java heap space ” 需要在cdh控制台上修改Java内存，默认50M，安装时也没提示让设置内存大小，结果自动安装后到最后的启动阶段报错（如下图）这个时候可以返回到首页，点击kafka,进入“配置”修改java内存找到文章来源: CDH集成kafka

HDP与CDH

阅读更多关于 HDP与CDH

一、 Hadoop版本目前Hadoop发行版本非常多，我个人接触的有HDP和CDH， Hortonworks版本（Hortonworks Data Platform，简称“ HDP ”）， Cloudera版本（ Cloudera Distribution Hadoop，简称“CDH ” ），还有其他的版本，目前中国公司我发现用的CDH版本较多，至于什么原因我也不是很清楚，不知道是不是跟风，从我个人的角度使用来看，我觉得HDP版本要比CDH要好。二、 HDP与CDH对比 1. 据个人了解HDP是100%完全开源的，而CDH还不是100%完全开源。 Hortonworks的工程师是社区的主要贡献者， Cloudera的发行版本也是比较清晰的。 2. HDP使用开源工具Ambari安装，CDH使用Cloudera Manager工具安装。对配置的修改与更新我喜欢Ambari的界面，可以很方便的修改集群配置， Cloudera Manager的配置界面真的是太烂了，不方便，发现有些配置竟然没法改。 3. 支持的组件，HDP基本上支持所有的开源大数据组件，CDH也基本上支持所有的开源大数据组件。 4. 代码包依赖，如果是HDP平台，编写代码直接依赖hadoop版本即可，如果是CDH平台，编写代码要依赖cdh的版本，否则运行不成功，这是坑啊。三、安装参考 1. https:/

kafka教程1（cdh 安装 kafka）

阅读更多关于 kafka教程1（cdh 安装 kafka）

进入安装包管理，找到kafka,点击下载，下载好后点击分配，然后点击激活激活后如下 cd /opt/cloudera/csd wget http://archive .cloudera .com /csds/kafka/KAFKA- 1.2 .0 .jar cd /opt/cloudera/parcel-repo wget http://archive .cloudera .com /kafka/parcels/latest/KAFKA- 3.0 .0 - 1.3 .0 .0 .p 0 .40 -el7 .parcel wget http://archive .cloudera .com /kafka/parcels/latest/KAFKA- 3.0 .0 - 1.3 .0 .0 .p 0 .40 -el7 .parcel .sha 1 wget http://archive .cloudera .com /kafka/parcels/latest/manifest .json 然后进入安装包管理，先分配然后激活 1.添加服务 2.选择kafka 3.选择要添加broker 4.后面一直按照默认继续下去，直到添加成功，然后再启动启动的时候我曾经不知为什么只能启动一个broker，后来在下图这里启动就全部都启动了也有可能是配置的问题，配置我也修改过一个，这里就不验证了

CDH环境集成KUDU的安装和使用

阅读更多关于 CDH环境集成KUDU的安装和使用

CDH环境集成KUDU安装与使用说明一、安装说明 1.1、安装步骤： 1、重新配置CDH集群，将对应版本的KUDU放到本地repo目录后按照安装CDH环境步骤逐步进行安装； 1.2、所遇问题： 1、无法读取到kudu安装parcel； 1.3、参考文档： https://blog.csdn.net/mergerly/article/details/75127392#comments https://www.cnblogs.com/littlesuccess/p/5052511.html https://blog.csdn.net/qq_26398033/article/details/55099591 https://www.jianshu.com/p/cf4c4974127a?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation https://www.cnblogs.com/Leo_wl/p/7374133.html https://www.cloudera.com/documentation/kudu/latest.html 二、使用说明 2.1、kudu简介： https://www.2cto.com/kf/201707/653559.html http

CDH HDFS High Availability（CDH启用HDFS高可用）5.11.x

阅读更多关于 CDH HDFS High Availability（CDH启用HDFS高可用）5.11.x

Table of Contents HDFS高可用性介绍背景 HA实现 Quorum-based存储自动故障转移关于HDFS HA的一般问题 “Operation category READ/WRITE is not supported in state standby”是什么意思? 为HDFS HA配置硬件开启HDFS HA 使用 Cloudera 管理器启用 HDFS HA 启用高可用性和自动故障转移 Fencing Methods 使用命令行启用HDFS HA 为HDFS HA配置软件部署HDFS高可用性本节概述HDFS高可用性(HA)特性以及如何配置和管理HA HDFS集群。 HDFS高可用性介绍背景在标准配置中，NameNode 是 HDFS 集群中的单点故障(SPOF)。每个集群都有一个 NameNode，如果该主机或进程变得不可用，则整个集群都不可用，直到 NameNode 重新启动或在新主机上启动。Secondary NameNode 不提供故障转移功能。标准配置通过两种主要方式减少了HDFS 集群的总可用性：在发生意外事件(如主机崩溃)的情况下，在操作员重新启动 NameNode 之前，集群是不可用的。计划的维护事件(如NameNode机器上的软件或硬件升级)会导致集群停机。 HDFS HA 通过提供在同一集群中以主动/被动配置运行两个

订阅 cdh