Cloudera | 易学教程

Hadoop-Impala学习笔记之入门

阅读更多关于 Hadoop-Impala学习笔记之入门

CDH quickstart vm包含了单节点的全套hadoop服务生态，可从https://www.cloudera.com/downloads/quickstart_vms/5-13.html下载。如下：对应的节点如下（不包含Cloudera Navigator）：要学习完整的hadoop生态，最好是使用8C/32GB以上的服务器，4C/16GB勉强能跑、但是很勉强（最好使用2个以上节点）。 impala 使用c++编写（Spark使用Scala编写），采用MPP架构（类似于MariaDB Columnstore，也就是之前的infinidb），由下列组件组成： Hue是一个Web智能查询分析器，能够进行语法提示，查询Impala、HDFS、HBase。如下：其中impala服务器由Impala Daemon（执行SQL）、Impala Statestore（监控Daemon状态）、Impala Catalog（将DDL变更传输给Daemon节点，避免了DDL通过Impala执行时运行REFRESH/INVALIDATE METADATA的必要，通过Hive时，仍然需要）组成。impala-shell和mysql客户端类似，执行SQL。 Impala使用和Hive一样的元数据，其可以存储在mysql或postgresql中，称为metastore。

Hadoop介绍

阅读更多关于 Hadoop介绍

Hadoop是什么？ Hadoop是由Apache基金会所开发的分布式系统基础架构主要解决，海量数据的存储和海量数据的分析计算问题广义上来说，Hadoop通常是指一个更广泛的概念—-Hadoop生态圈 Hadoop发展历史 Lucene框架是Doug Cutting开创的开源软件，用java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎 2001年底Lucene成为Apache基金会的一个子项目对于海量数据的场景，Lucene面对与Google同样的困难，存储数据困难，检索速度慢学习和模仿Google解决这些问题的办法：微型版Nutch 可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文） GFS → HDFS Map-Reduce → MR BigTable → HBase 2003年到2004年，Google公开了部分GFS和MapReduce的思想细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升 2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会 2006年3月份，Map-Reduce和Nutch Distributed File System（NDFS

CDH版本组件端口汇总

阅读更多关于 CDH版本组件端口汇总

CDH版本组件端口汇总组件端口号端口用途 HDFS 50020 DataNode 协议端口 HDFS 50010 DataNode 收发器端口 HDFS 50075 DataNode HTTP Web UI 端口 HDFS 50475 安全 DataNode Web UI 端口 HDFS 14000 REST端口 HDFS 14001 管理端口 HDFS 8485 JournalNode RPC 端口 HDFS 8480 JournalNode HTTP 端口 HDFS 8481 安全JournalNode Web UI端口(TLS/SSL) HDFS 2049 NFS Gateway 服务器端口 HDFS 4242 NFS Gateway MountD端口 HDFS 8020 NameNode 端口 HDFS 8022 NameNode服务RPC端口 HDFS 50070 NameNode Web UI端口 HDFS 50470 安全NameNode Web UI端口(TLS/SSL) HDFS 50090 SecondaryNameNode Web UI端口 HDFS 50495 安全 SecondaryNameNode Web UI端口(TLS/SSL) HDFS 111 端口映射(或Rpcbind)端口 yarn 10020 MapReduce JobHistory

Is it possible to change an existing column's metadata on an EXTERNAL table that is defined by an AVRO schema file?

阅读更多关于 Is it possible to change an existing column's metadata on an EXTERNAL table that is defined by an AVRO schema file?

问题 This is an extension of a previous question I asked: Is it possible to change the metadata of a column that is on a partitioned table in Hive? Question: Is it possible to change an existing column's metadata on an EXTERNAL table that is defined by an AVRO schema file? I need to change the column metadata on a table that is both partitioned and stored as EXTERNAL. The column itself is not the partitioning column. The metadata is stored in a separate AVRO file. I can confirm that the updated

Cloudera Manger CDH 安装文档

阅读更多关于 Cloudera Manger CDH 安装文档

简介： Cloudera Manager 是 Cloudera 公司推出的 Hadoop 集群管理工具，通过该管理工具可以方便的部署、配置、监控集群。 Cloudera 公司自己发布的 Hadoop 版本叫 CDH，全称 Cloudera Distribution Hadoop。环境介绍： 192.168.47.10 master.hadoop C6.8 x64 CPU: 1 MEM: 4GB 192.168.47.20 datanode01.hadoop C6.8 x64 CPU: 1 MEM: 1GB 192.168.47.30 datanode02.hadoop C6.8 x64 CPU: 1 MEM: 1GB 一、服务器初始化 1、配置 hostname 、修改 hosts 2、关闭 iptables 、selinux 3、配置时间同步服务器 ntp # master.hadoop 、datanode.hadoop shell > cp -r /usr/share/zoneinfo/Asia/Shanghai /etc/localtime # 修改时区 shell > yum -y install ntp # master.hadoop shell > vim /etc/ntp.conf # 允许客户端来同步时间的网段 restrict 192.168.47.0 mask

【CDH学习之一】CDH简介

阅读更多关于【CDH学习之一】CDH简介

环境　　虚拟机：VMware 10 　　Linux版本：CentOS-6.5-x86_64 　　客户端：Xshell4 　　FTP：Xftp4 　　jdk8 　　zookeeper-3.4.11 一、CDH 在商业应用中，对于企业成百上千的机器集群进行安装hadoop一系列组件费时费力，而且hadoop各个开源组件版本混乱，管理升级也比较困难，对于企业日常的管理维护带来极大不b便,现在商用的比较流行国外的是CDH（Cloudera’s Distribution Including Apache Hadoop），国内是星环、华为等公司，他们改造封装了HADOOP生态组件来出售。 CDH，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，版本清晰，更新快，文档全，安装方式多（Yum、Rpm、Cloudera Manager、Tarball）二、ClouderaManager Cloudera Manager是一个管理CDH的端到端的应用。作用：管理、监控、诊断、集成 Server 　　管理控制台服务器和应用程序逻辑　　负责软件安装、配置　　启动和停止服务　　管理服务运行的群集 Agent 　　安装在每台主机上　　负责启动和停止进程，配置，监控主机 Management Service 　　由一组角色组成的服务

第1章大数据Cloudera Manager

阅读更多关于第1章大数据Cloudera Manager

1.1、 cloudera manager的概念简单来说，Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。 1.2、 cloudera manager的功能（1)管理：对集群进行管理，如添加、删除节点等操作。（2)监控：监控集群的健康情况，对设置的各种指标和系统运行情况进行全面监控。（3)诊断：对集群出现的问题进行诊断，对出现的问题给出建议解决方案。 4)集成：多组件进行整合。 1.3、 cloudera manager的架构（1)Server：负责软件安装、配置，启动和停止服务，管理服务运行的群集。（2)Agent：安装在每台主机上。负责启动和停止的过程，配置，监控主机。（3)Management Service：由一组执行各种监控，警报和报告功能角色的服务。（4)Database：存储配置和监视信息。（5)Cloudera Repository：软件由Cloudera 管理分布存储库。（有点类似Maven的中心仓库）（6)Clients：是用于与服务器进行交互的接口（API和Admin Console）来源： CSDN 作者：江湖侠客链接： https://blog.csdn.net

0457-如何使用Cloudera Manager手动收集诊断包

阅读更多关于 0457-如何使用Cloudera Manager手动收集诊断包

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1 文章编写目的如果您拥有Cloudera Enterprise许可证，那么我们就能借助于Cloudera Manager提供的收集集群诊断包功能，通过Cloudera的后台Support对诊断包进行分析，为您提供集群健康诊断及优化改进建议。Cloudera Manager提供自动收集和手动收集诊断包方式，在多数企业内网环境无法将诊断包信息直接发送至后台Support，通常使用手动收集的方式。本篇文章Fayson主要介绍如何使用Cloudera Manager手动收集诊断包。测试环境 1.RedHat7.2 2.CM和CDH版本为5.15.0 2 指定诊断包数据目录通过Cloudera Manager可以设置诊断包的数据目录，配置方式如下： 1.进入“Administration”->“Settings” 2.在类别中选择“支持”，找到“诊断数据临时目录” 默认的诊断数据临时目录为空，留空将会使用JVM临时目录。如果收集诊断数据时您的磁盘空间不足，则设置该值。 3 诊断包敏感信息脱敏默认情况下，Cloudera

0456-如何使用Cloudera Manager为Hadoop服务角色启用远程JMX访问

阅读更多关于 0456-如何使用Cloudera Manager为Hadoop服务角色启用远程JMX访问

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1 文章编写目的 JMX（Java Management Extensions，即Java管理扩展）做Java开发的人都比较熟悉，它提供了一种在运行时动态资源的监控指标。JMX主要用于配置和监控资源状态，使用它可以监视和管理Java虚拟机。本篇文章Fayson主要介绍如何使用Cloudera Manager为Hadoop服务角色启用远程的JMX访问。测试环境 1.RedHat7.2 2.CM和CDH版本为5.13.1 2 Hadoop服务启用JMX访问在Hadoop集群中所有基于JVM运行的服务，均可以为其启用JMX访问，这里Fayson主要选择NameNode服务为例进行说明。 1.登录CM进入HDFS服务的配置页搜索“Java 配置” 2.在“NameNode 的 Java 配置选项”的配置项中增加如下配置 - Dcom . sun . management . jmxremote - Dcom . sun . management . jmxremote . port = 9004 - Dcom . sun . management .

CentOS 7离线安装CDH 5.16.1完全指南（含各种错误处理）

阅读更多关于 CentOS 7离线安装CDH 5.16.1完全指南（含各种错误处理）

安装包下载 1、CM软件包下载从http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.16.1/RPMS/x86_64/下载rpm包，如下：其实不需要下载j2sdk的，因为cm安装过程中会自动安装的，自己下载了也没用（这个网上的一些文章说法是不正确的）。 2、cloudera-manager安装文件下载从http://archive.cloudera.com/cm5/installer/5.16.1/下载，如下： 3、rpm仓库文件下载从http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/下载，在最底部，如下： 4、parcel下载从http://archive.cloudera.com/cdh5/parcels/5.16.1/下载el7版本，如下：上传rpm以及bin文件到/soft目录（parcel、sha、manifest最后要放在/opt/cloudera/parcel-repo目录，可以一起先上传、也可以cloudera-manager安装后再上传）。如下：环境准备 1、安装mysql或postgresql，创建hive/hue/amon/oozie_oozie_server用户并分配权限，最好不要使用内置数据库，不然不好管理，注意先拷贝jdbc驱动到

订阅 Cloudera