Hadoop | 易学教程

从零自学Hadoop(06)：集群搭建

阅读更多关于从零自学Hadoop(06)：集群搭建

阅读目录序集群搭建监控系列索引本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。文章是哥(mephisto)写的， SourceLink 序　　上一篇，我们把Ambari的环境基本搭建好了，那么我们趁热打铁，打造我们的第一个HDP集群，这样，离我们下一步就越来越近了，在安装中还是会碰到很多想不到的情况的。所以，注意分析，找到解决方法很重要。　　对了，这里我们还是多搭建了一个机器H34,怕集群机器不够。大家按照原来的步骤在做一个吧。集群搭建一：登陆　　使用我们设置的Ambari服务器登陆，还记得么，在H30上面。二：主界面　　我们看到圈起来的地方就是我们要搭建集群的地方。三：新建集群　　这里，我们使用MyCluster作为我们第一个集群的名称。四：选择HDP版本和源　　我们当然选择最新的HDP2.3，玩就玩最新的，要不老是在别人后面，多不好啊。　　这里我们得设置HDP和 HDP-UTILS的源，我们已经搭建好了仓库，可以直接使用本地源了。五：将SSH私有Key放到本机　　由于是页面登陆，当然如果H30开启了GUI界面，是可以不用这个操作的。　　目前我们使用的没有GUI界面的Linux，所以，得在浏览器使用的机器上能使用的到ssh private key。　　过程很简单，就不上图了。六

0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5

阅读更多关于 0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1 文档编写目的 Cloudera在2019年1月29日发布CDSW1.5，CDSW1.5的一个最大的更新就是支持CDH6和HDP，在1.5之前，CDSW是不能安装到CDH6.x的。CDH5.13版本以后支持CDSW的Parcel安装，本篇文章Fayson就主要讲述如何通过CM6.2使用Parcel包安装CDSW1.5。 CDSW需要DNS服务和泛域名解析，可以参考Fayson以前的文章《如何在Windows Server2008搭建DNS服务并配置泛域名解析》、《如何利用Dnsmasq构建小型集群的本地DNS服务器》、《如何在Windows Server2012搭建DNS服务并配置泛域名解析》，《如何在RedHat6上使用Bind搭建DNS服务》或《如何在RedHat7上使用Bind搭建DNS服务》，CDSW1.5的新功能可以参考《 0544-CDSW1.5的新功能》。搭建DNS服务推荐Dnsmasq，小巧可爱特方便。内容概述 1.部署CDSW parcel及安装CSD文件 2

zookeeper

阅读更多关于 zookeeper

一、What 一个主从架构的分布式框架给分布式框架提供协调服务（service）作用提供简版文件系统来存储数据维护和监控存储的数据状态变化，通过监控数据状态变化达到基于数据的集群管理主要用来解决分布式集群中应用系统的一致性问题应用场景 1. 主备切换 2. 节点的上下线感知 3. 统一命名服务 4. 状态同步服务 5. 集群管理 6. 分布式应用配置管理二、基本概念 ZooKeeper=简版文件系统(Znode)+原语+通知机制(Watcher) ZK文件系统基于类似于文件系统的目录节点树方式的数据存储原语提供类linux指令进行操作 Watcher（监听器）数据节点ZNode 数据节点本质就是目录持久节点临时节点非有序节点 create create -e 有序节点 create -s create -s -e 持久节点（无序）节点创建以后，即便连接断开，除非主动删除，不然会一直存在持久节点（有序）创建节点的时候加上 -s ，会默认的在目录后加上数字防止同一目录创建同名ZNode导致失败临时节点（无序）节点创建以后，一旦连接断开会自动删除创建节点的时候通过 -t 指定持久节点（有序）同上会话与zk交互时会建立TCP长连接，称为会话建立会话后，如果超过SessionTimeout时间，两者间没有通信，会话超时

关于数据仓库的架构及3大类组件工具选型

阅读更多关于关于数据仓库的架构及3大类组件工具选型

关于数据仓库的概念、原理、建设方法论，网上已经有很多内容了，也有很多的经典书籍，本文更想聊聊企业数据仓库项目上的架构和组件工具问题。先来谈谈架构。企业数据仓库架构关于数据仓库，有一种简单粗暴的说法，就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。数据仓库用来管理企业庞大的数据集，提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力，我们讲集中讨论最本质的问题，在不考虑过多技术细节的情况下，整个层次架构可以被划分为4层：原始数据层（数据源）数据仓库架构形态数据的采集、收集、清洗和转换应用分析层单层架构（直连）大多数情况下，数据仓库是一个关系型数据库，包含了允许多维数据的模块，或者分为多个易于访问的多主题信息域，最简单的数据仓库只有一层架构。单层架构就以为着数据仓库与分析接口直接连接（直连），终端用户可以直接查询。但简单有其弊端和适用性：传统上数据仓库的存储从 100GB 起，直连可能会导致数据查询处理速度慢，因为要直接从数据仓库查询准确的数据，或者是准确的输入，过程中要过滤掉很多非必要数据，这对数据库以及前端BI工具的性能要求相当高，基本性能不会太高。另外，在处理复杂维度分析时性能也受限，由于其缓慢性和不可预测性，很少应用在大型数据平台。要执行高级数据查询

Linux命令01

阅读更多关于 Linux命令01

Linux简介及 Ubuntu安装 Linux，免费开源，多用户多任务系统。基于Linux有多个版本的衍生。RedHat、Ubuntu、Debian 安装VMware或VirtualBox虚拟机。具体安装步骤，找百度。再安装Ubuntu。具体安装步骤，找百度。安装完后，可以看到Linux系统的目录结构。常用指令 ls　　显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录，包括隐藏的a(all) mkdir 创建目录 -p 创建目录，若无父目录，则创建p(parent) cd 切换目录 touch 创建空文件 echo 创建带有内容的文件。 cat 查看文件内容 cp 拷贝 mv 移动或重命名 rm 删除文件 -r 递归删除，可删除子目录及文件 -f 强制删除 find 在文件系统中搜索某文件 wc 统计文本中行数、字数、字符数 grep 在文本文件中查找某个字符串 rmdir 删除空目录 tree 树形结构显示目录，需要安装tree包 pwd 显示当前目录 ln 创建链接文件 more、less 分页显示文本文件内容 head、tail 显示文件头、尾内容 ctrl+alt+F1 命令行全屏模式系统管理命令 stat 显示指定文件的详细信息，比ls更详细 who 显示在线登陆用户 whoami 显示当前操作用户 hostname

如何使用云原生数据湖，助力线上教育行业逐步智能化

阅读更多关于如何使用云原生数据湖，助力线上教育行业逐步智能化

简介：阿里云基于对象存储OSS构建的数据湖解决方案，帮助企业有效消除数据孤岛的现象，让数据的价值真正被利用起来。行业综述线下教育行业因疫情受挫，线上教育却逆势增长随着90年代互联网的引入，在线教育产品也依托于互联网诞生。随着互联网技术的发展，在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式，开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用，在线教育成为今年疫情影响下，为数不多能实现逆势增长的行业。由于疫情的影响，教育行业根据中央疫情防控工作部署，直接暂停各类线下授课，不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创，某知名线下教育机构上半年营收同期降低30%，净亏损将近1亿。和线下教育不同的是，线上教育行业整体呈现逆势增长的态势，根据数据显示，2020年中国在线教育用户规模预计将达到3.51亿人，预计市场规模将达到4858亿元。同时由于疫情的影响，三月份在线教育市场渗透率更是高达85%，增长率是2019年的5倍以上。行业发展方向在线教育向数据化发展，行业逐步智能化教育在线化也进一步促进了数据化的发展，内容作为教育企业的核心资产，无论是数据化程度还是数据化规模都不断提升；同时用户使用时长的提升，又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长，超过200万天

6 岁学编程，9 岁给电脑杂志社撰稿，19 岁收月薪 2 万的 Offer | 程序人生 2020

阅读更多关于 6 岁学编程，9 岁给电脑杂志社撰稿，19 岁收月薪 2 万的 Offer | 程序人生 2020

作者 | 杨若瑜责编 | 伍杏玲出品 | CSDN（ID：CSDNnews）【CSDN 编者按】在CSDN举办的“原力计划”活动中，编者看到一篇《老程序员教你如何提高开发效率、成为大神0——从业余到专业》的文章。这位90后程序员6岁为了玩游戏自学attrib命令，学会Win3.2、DOS指令，走上编程之路。8岁成为电脑培训班里最小的学员，学习Office、3DMAX、UCDOS、WPS、Visual Basic、C++。9岁开始给电脑杂志社投稿，13岁开始做外包，19岁因为撰写一篇关于安全的文章收到2万月薪的Offer…… 一起来看看他精彩的程序人生吧！第一次“触电”电脑我于1990年在哈尔滨出生，家里有个比我大十多岁的姐姐。1996年，我姐姐是家里第一个接触计算机和互联网的人。她当时在大学时期练就了五笔字型输入法，并且通过最快240字/分钟的输入速度获得了学校的打字比赛冠军，奖品是一套正版5.25英寸希望汉字系统安装盘。那时候哈尔滨正在举行冬季亚运会，对于当时年纪尚小的我来说，能拿到冠军的人是特别厉害的人。当时如果打字能够达到这个速度，就意味着在社会上一定能找到满意的高薪工作，甚至可以有机会进入银行体系。由于我姐姐的打字能力，加之很多电脑店都挂出熟悉的那句“计算机普及要从娃娃抓起”，我和我姐姐人生中第一台电脑就是那个时候买的。这得益于我的家庭

CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

阅读更多关于 CDH-Namenode-Yarn-Hbase-Hive的HA配置-Flink on yarn配置

配置namenode HA高可用使用cloudera manager方式安装，namenode是单节点方式，需要额外配置成HA。配置NameNode HA的两点前提条件：（1）至少是3个或3个以上奇数个JournalNode，否则将无法继续配置NameNode HA. （2）配置NameNode需要有Zookeeper. 在hdfs - 操作 -选择启用HA 填写nameservice名称，自定义即可：选择另外一台服务器安装namenode ，三个或5个节点安装journalnode。配置namenode,journalnode数据目录,如/data1/dfs/nn，/data1/dfs/jn 继续等待命令执行完成，按照向导操作即可启用HA成功配置yarn HA高可用使用管理员用户登录Cloudera Manager的Web管理界面，进入YARN服务点击“启用High Avaiability”，选择ResourceManager主机点击“继续”，启用ResourceManager HA 点击“完成”，查看YARN服务实例可以看到YARN的ResourceManager实例为两个，一个是活动状态，一个是备用状态，至此已完成YARN HA的启用，那么接下来就测试下YARN HA功能的可用性。 Yarn HA功能可用性测试 ResourceManager服务状态

Hive外部表 | 每日五分钟学大数据

阅读更多关于 Hive外部表 | 每日五分钟学大数据

别的先不说，开门见山说说内部表的特点： Hive 创建内部表时，会将数据移动到数据仓库指向的路径； Hive 创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变；在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。传统数据库对表数据验证是schema on write（写时模式），而 Hive 在load时是不检查数据是否符合schema的，hive 遵循的是schema on read（读时模式），只有在读的时候hive才检查、解析具体的数据字段、schema；所以在这样的设计下，Hive支持创建外部表也变得理所应当，我们来看下如何创建一个外部表。 CREATE EXTERNAL TABLE table_name( id STRING , name STRING ) ROW FORMAT DELIMITED LOCATION '/data/my_data.txt' ; 关键字EXTENAL告诉Hive这个表是外部的，而后面的LOCATION...子句则用于告诉Hive数据位于哪个路径下。然而，我们需要清楚的重要的一点是管理表和外部表之间的差异要比刚开始所看到的小得多。即使对于管理表，用户也是可以知道数据是位于哪个路径下的，因此用户也是可以使用其他工具

Hadoop 中的两表join

阅读更多关于 Hadoop 中的两表join

作为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各种不同的算法论文出现，讨论各种算法的适用场景和取舍条件，本文讨论hive 中出现的几种join 优化，然后讨论其他算法实现，希望能给使用hadoop 做数据分析的开发人员提供一点帮助. Facebook 今年在yahoo 的hadoop summit 大会上做了一个关于最近两个版本的hive 上所做的一些join 的优化，其中主要涉及到hive 的几个关键特性: 值分区 , hash 分区 , map join , index , Common Join 最为普通的join策略，不受数据量的大小影响，也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value , 但是在进行partition 的时候它仍然只使用join_column_value 进行hash. 每一个reduce 接受所有的map 传过来的split , 在reducce 的shuffle

订阅 Hadoop