cdh

第一篇:CDH配置本地http服务

送分小仙女□ 提交于 2020-02-11 20:58:10
在我们安装cdh的时候,避免不了要安装一大堆软件,包括cm的服务器,hadoop的各种组件。这些组件的文件都比较大,所以我们会在本地配置一个http服务,以便于在安装cdh服务的时候能快速的安装完。本文主要介绍http服务的安装。 1. 如果没有配置yum源,那么可以去下载个阿里的centos源,我这里的系统是centos7。阿里源 http://mirrors.aliyun.com/repo/Centos-7.repo。 2. 用yum命令安装http软件 1 yum -y install httpd 3. 安装完后配置httpd.conf 1 vi /etc/httpd/conf/httpd.conf在 AddType application/x-gzip .gz .tgz 添加 .parcel例: AddType application/x-gzip .gz .tgz .parcel 4. 启动http服务 1 systemctl start httpd #启动服务 2 systemctl enable httpd #开机自启动 5. 现在就可以在网页端访问了,如下: 里面的文件,可以自己去clouder下载。 我cdh版本是6.2.1。如下可以直接执行 1 sudo mkdir -p /var/www/html/cloudera-repos 2 sudo wget -

hadoop 集群调优实践总结

不问归期 提交于 2020-02-10 03:12:37
调优概述 # 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 分组 数据倒入导出 数据移动和转换 CPU受限例子: 聚类/分类 复杂的文本挖掘 特征提取 用户画像 自然语言处理 我们需要从硬件规划和软件规划等多方面结合实现性能和效率的提升。 硬件规划 # 评估集群规模 # 我们需要搭建多少节点的hadoop集群?回答这个问题考虑的因素比较多:预算?数据量?计算资源? 需要多少计算资源可能不是特别好评估,推荐横向扩展,随业务规模和应用发展再考虑扩展。开始可以就按照数据量来评估数据规模,估计一下每天的数据增量?保存数据的周期是多少?有没有冷数据方案? 假设每天增长的数据为600G、3备份存储,以一年规划为例,大概存储为600G 3 360天=633T, 再考虑增加%20的预留,考虑未来数据增长的趋势,考虑应用计算等空间需求。为节省空间可考虑压缩存储(大概可以节省70%空间)。 同时考虑一定冗余量,如果集群一部分节点不可用也要保证业务正常使用(根据集群规模评估冗余比例)。 然后结合节点硬件规划和预算,确定集群规模。假如我们需要650T存储,可以采用30台12 x 2TB的存储配置或者 60台6 x 2TB配置,但是节点数量翻翻

CDH版本组件端口汇总

泪湿孤枕 提交于 2020-02-05 19:03:55
CDH版本组件端口汇总 组件 端口号 端口用途 HDFS 50020 DataNode 协议端口 HDFS 50010 DataNode 收发器端口 HDFS 50075 DataNode HTTP Web UI 端口 HDFS 50475 安全 DataNode Web UI 端口 HDFS 14000 REST端口 HDFS 14001 管理端口 HDFS 8485 JournalNode RPC 端口 HDFS 8480 JournalNode HTTP 端口 HDFS 8481 安全JournalNode Web UI端口(TLS/SSL) HDFS 2049 NFS Gateway 服务器端口 HDFS 4242 NFS Gateway MountD端口 HDFS 8020 NameNode 端口 HDFS 8022 NameNode服务RPC端口 HDFS 50070 NameNode Web UI端口 HDFS 50470 安全NameNode Web UI端口(TLS/SSL) HDFS 50090 SecondaryNameNode Web UI端口 HDFS 50495 安全 SecondaryNameNode Web UI端口(TLS/SSL) HDFS 111 端口映射(或Rpcbind)端口 yarn 10020 MapReduce JobHistory

Cloudera Manger CDH 安装文档

眉间皱痕 提交于 2020-02-04 21:34:10
简介: Cloudera Manager 是 Cloudera 公司推出的 Hadoop 集群管理工具,通过该管理工具可以方便的部署、配置、监控集群。 Cloudera 公司自己发布的 Hadoop 版本叫 CDH,全称 Cloudera Distribution Hadoop。 环境介绍: 192.168.47.10 master.hadoop C6.8 x64 CPU: 1 MEM: 4GB 192.168.47.20 datanode01.hadoop C6.8 x64 CPU: 1 MEM: 1GB 192.168.47.30 datanode02.hadoop C6.8 x64 CPU: 1 MEM: 1GB 一、服务器初始化 1、配置 hostname 、修改 hosts 2、关闭 iptables 、selinux 3、配置时间同步服务器 ntp # master.hadoop 、datanode.hadoop shell > cp -r /usr/share/zoneinfo/Asia/Shanghai /etc/localtime # 修改时区 shell > yum -y install ntp # master.hadoop shell > vim /etc/ntp.conf # 允许客户端来同步时间的网段 restrict 192.168.47.0 mask

【CDH学习之一】CDH简介

戏子无情 提交于 2020-02-04 21:25:54
环境   虚拟机:VMware 10   Linux版本:CentOS-6.5-x86_64   客户端:Xshell4   FTP:Xftp4   jdk8   zookeeper-3.4.11 一、CDH 在商业应用中,对于企业成百上千的机器集群进行安装hadoop一系列组件费时费力,而且hadoop各个开源组件版本混乱,管理升级也比较困难,对于企业日常的管理维护带来极大不b便,现在商用的比较流行国外的是CDH(Cloudera’s Distribution Including Apache Hadoop),国内是星环、华为等公司,他们改造封装了HADOOP生态组件来出售。 CDH,是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,版本清晰,更新快,文档全,安装方式多(Yum、Rpm、Cloudera Manager、Tarball) 二、ClouderaManager Cloudera Manager是一个管理CDH的端到端的应用。 作用:管理、监控、诊断、集成 Server   管理控制台服务器和应用程序逻辑   负责软件安装、配置   启动和停止服务   管理服务运行的群集 Agent   安装在每台主机上   负责启动和停止进程,配置,监控主机 Management Service   由一组角色组成的服务

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

╄→尐↘猪︶ㄣ 提交于 2020-02-03 04:38:42
注:本文针对的是使用命令行安装和配置CDH Hadoop,如果你使用RPM或者ClouderaManager,基本可以忽略此文。 Hadoop在计算和存储过程中,支持对文件进行压缩,可以使用hadoop checknative命令来查看: 其中,像zlib、lz4、bzip2,会使用系统库,那么需要在Hadoop所在机器上先安装这些。 Snappy和Lzo,需要单独安装配置,CDH版本的hadoop,已经为每一个版本及操作系统编译好了Snappy和Lzo库(RPM),可以通过RPM来获得。 http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.8.3/RPMS/x86_64/ Snappy库可以从上面链接中的Hadoop RPM包中获取,注意:需要找到正确的操作系统及cdh版本,我使用的操作系统为centos 7,cdh5.8.3. http://archive.cloudera.com/gplextras5/redhat/7/x86_64/gplextras/5.8.3/RPMS/x86_64/ Lzo库及jar包,可以从上面的链接中获得,仍然需要注意你的操作系统版本和cdh版本。 RPM包下载好之后,使用下面的命令安装: rpm -ivh hadoop-2.6.0+cdh5.8.3+1718-1.cdh5.8.3.p0.7

CDH版本Hbase二级索引方案Solr key value index

▼魔方 西西 提交于 2020-01-28 12:30:11
概述 在Hbase中,表的RowKey 按照字典排序, Region按照RowKey设置split point进行shard,通过这种方式实现的全局、分布式索引. 成为了其成功的最大的砝码。 然而单一的通过RowKey检索数据的方式,不再满足更多的需求,查询成为Hbase的瓶颈,人们更加希望像Sql一样快速检索数据,可是,Hbase之前定位的是大表的存储,要进行这样的查询,往往是要通过类似Hive、Pig等系统进行全表的MapReduce计算,这种方式既浪费了机器的计算资源,又因高延迟使得应用黯然失色。于是,针对HBase Secondary Indexing的方案出现了。 Solr Solr是一个独立的企业级搜索应用服务器,是Apache Lucene项目的开源企业搜索平台, 其主要功能包括全文检索、命中标示、分面搜索、动态聚类、 数据库 集成,以及富文本(如Word、PDF)的处理。Solr是高度可扩展的,并提供了分布式搜索和索引复制。Solr 4还增加了NoSQL支持,以及基于Zookeeper的分布式扩展功能SolrCloud。SolrCloud的说明可以参看: SolrCloud分布式部署 。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展

CentOS 7离线安装CDH 5.16.1完全指南(含各种错误处理)

ⅰ亾dé卋堺 提交于 2020-01-27 14:19:37
安装包下载 1、CM软件包下载 从http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.16.1/RPMS/x86_64/下载rpm包,如下: 其实不需要下载j2sdk的,因为cm安装过程中会自动安装的,自己下载了也没用(这个网上的一些文章说法是不正确的)。 2、cloudera-manager安装文件下载 从http://archive.cloudera.com/cm5/installer/5.16.1/下载,如下: 3、rpm仓库文件下载 从http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/下载,在最底部,如下: 4、parcel下载 从http://archive.cloudera.com/cdh5/parcels/5.16.1/下载el7版本,如下: 上传rpm以及bin文件到/soft目录(parcel、sha、manifest最后要放在/opt/cloudera/parcel-repo目录,可以一起先上传、也可以cloudera-manager安装后再上传)。如下: 环境准备 1、安装mysql或postgresql,创建hive/hue/amon/oozie_oozie_server用户并分配权限,最好不要使用内置数据库,不然不好管理,注意先拷贝jdbc驱动到

cdh离线安装mysql

若如初见. 提交于 2020-01-27 01:04:41
一、安装包下载 下载地址: https://dev.mysql.com/downloads/mysql/5.6.html#downloads 二、安装 1.删除原有的mariadb,不然mysql装不进去 rpm -qa|grep mariadb rpm -e --nodeps mariadb-libs 2.将下载好的安装到解压到/usr/local目录下 tar -zxvf mysql-5.7.27-linux-glibc2.12-x86_64.tar.gz -C /usr/local/ 3.进入/usr/local目录 cd /usr/local/ 4.为mysql安装目录创建软链接 ln -s mysql-5.7.27-linux-glibc2.12-x86_64 mysql 5.为centos添加mysql用户组和mysql用户(-s /bin/false参数指定mysql用户仅拥有所有权,而没有登录权限) groupadd mysql useradd -r -g mysql -s /bin/false mysql 6.进入安装mysql软件的目录,命令如下 cd /usr/local/mysql 7.修改当前目录拥有者为新建的mysql用户,命令如下: chown -R mysql:mysql ./ 8.安装mysql,命令如下: ./bin/mysqld --user

Scala 映射Map

佐手、 提交于 2020-01-23 02:38:23
在 Scala 中,把哈希表这种数据结构叫做映射, 在 Java 中也叫做映射,在 Python 中把哈希表这种数据结构叫做字典。Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable 。 在 Scala 中集合有可变(mutable)和不可变(immutable)两种类型, immutable 类型的集合初始化后就不能改变了(注意与 val 修饰的变量进行区别)。 构建 Map // 方式1 val access=Map("cdh-master" -> 1, "cdh-slave01" -> 2,"cdh-slave02" -> 3) // 方式2 val access=Map(("cdh-master",1), ("cdh-slave01",2), ("cdh-slave02",3)) // Map(cdh-master -> 1, cdh-slave01 -> 2, cdh-slave02 -> 3) 获取Map 中的值 map("cdh-master") // 1 // 有值则返回值,没有返回设置的值 map.getOrElse("cdh-master",0) 修改 Map 中的值 注意:在 Scala 中有两种 Map,immutable 包下 Map 的内容不可变,另一个是 mutable 包下的 Map 的内容可变