Hadoop | 易学教程

大数据技术原理与应用

阅读更多关于大数据技术原理与应用

概要介绍大数据期末整理，岩哥牛逼。往期文章数据可视化思维导图网页设计期末复习选择+简答+大题文章目录第一章 1. 大数据的4个v 2. 大数据的影响 3. 大数据的两大核心技术及对应关系 4. 产品对应关系 5. 三者关系第二章 1. hadoop最初是创始人Doug Cutting 开发的文本搜索库，hadoop源自于2002年的Apache Nutch项目 2. hadoop分布式处理的软件框架，特性如下 3. Apache hadoop 版本演变 1.0-》2.0 4. hadoop生态系统 5. hadoop项目组建功能 6. 配置文件 core-site.xml hdfs-site.xml 参数（属性）理解第三章 1. 总而言之 HDFS实现以下目标 2. HAFS特殊的设置，使得本身具有一些应用局限性 3.块的概念 4. HDFS主要组件的功能（名称节点数据节点）（课本更详细） 5. 名称节点的数据结构 6. 第二名称节点： 7. 第二名称节点的工作流程（个人概括） 8. HDFS体系机构概述 9. HDFS通信协议 10. 多副本方式冗余数据的保存 11. 数据存储策略（重点） 12. 数据错误与恢复（名称节点出错数据节点出错数据出错）（了解） 13. HDFS数据读写操作（背）(待补充) 第四章 1. 从BigTable说起 2.

知乎热搜！如何看待年仅 28 岁的郭宇宣布从字节跳动退休?

阅读更多关于知乎热搜！如何看待年仅 28 岁的郭宇宣布从字节跳动退休?

点击蓝色“ 程序员书单 ”关注我哟加个“ 星标 ”，每天带你看好文，读好书！新智元报道来源：知乎编辑：梦佳、永上【新智元导读】最近28岁程序员郭宇宣布退休上了知乎热搜。郭宇是谁？高考后自学编程，非计算机专业出身，曾入职支付宝，2014年加入字节跳动，28岁实现财富自由提前退休，旅居日本经营温泉酒店。彪悍的人生不需要解释。你的28岁在干嘛？硕士毕业？苦苦等待一份大厂的offer？而有的人，28岁，已经光荣退休了。「如何看待年仅28岁的郭宇宣布从字节跳动退休？」又挂上了知乎热榜。这位大神是谁，于是和每一个羡慕嫉妒恨的围观群众一样，小编查了他微博。他在2月份的置顶微博里写道，「我选择在 28 岁的末尾退休，拥抱山间清泉与峡谷的风，去感受春秋冬夏。有缘人自会再相逢，朋友，愿我们在更广阔的世界再会！」 90后的他对日本有特殊的情结，据说退休前就去了100多次。字节跳动实行双周末制，他上班之余每个双周末会飞去日本，在那里旅游、投资房产、经营旅行社。据传他现在在日本各地有多处房产，国内开保时捷718上下班，去日本后开的宾利欧陆。然而，在「退休」后的微博里，他却鲜少炫富，分享的大多是东京美景和人生感悟。他的微博简介里写着，株式会社山月夜代表取缔役社长/住过150+个日本温泉乡/100万公里飞行进度86.5%/程序员/原字节跳动资深技术专家。郭宇的代步工具

Impala select * does not show all details of table

阅读更多关于 Impala select * does not show all details of table

问题 I have an sql query within impala select * from table but when I execute this certain columns are missing . Whereas when I do describe table those columns are there. I cannot show the snippet but the types not showing up are maps , arrays , and structs . 回答1: Impala doesn't support that. Complex types have to be unpacked to be displayed. The result set of an Impala query always contains all scalar types; the elements and fields within any complex type queries must be "unpacked" using join

Kafka学习之路（四）Kafka的安装

阅读更多关于 Kafka学习之路（四）Kafka的安装

一、下载下载地址： http://kafka.apache.org/downloads.html http://mirrors.hust.edu.cn/apache/ 二、安装前提（zookeeper安装）参考 http://www.cnblogs.com/qingyunzong/p/8634335.html#_label4_0 三、安装此处使用版本为kafka_2.11-0.8.2.0.tgz 2.1　上传解压缩 [hadoop@hadoop1 ~]$ tar -zxvf kafka_2.11-0.8.2.0.tgz -C apps [hadoop@hadoop1 ~]$ cd apps/ [hadoop@hadoop1 apps]$ ln -s kafka_2.11-0.8.2.0/ kafka 2.2　修改配置文件进入kafka的安装配置目录 [hadoop@hadoop1 ~]$ cd apps/kafka/config/ 主要关注： server.properties 这个文件即可，我们可以发现在目录下：有很多文件，这里可以发现有Zookeeper文件，我们可以根据Kafka内带的zk集群来启动，但是建议使用独立的zk集群 server.properties（ broker.id和 host.name 每个节点都不相同） // 当前机器在集群中的唯一标识

Kafka安装之二在CentOS 7上安装Kafka

阅读更多关于 Kafka安装之二在CentOS 7上安装Kafka

一、简介 Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息.Kafka 支持Java 及多种其它语言客户端，可与Hadoop、Storm、Spark等其它大数据工具结合使用。二、系统环境 1、操作系统：64位 CentOS 7 2、jdk版本：1.8.0 3、zookeeper版本：zookeeper-3.4.10.tar.gz 4、三台服务器：192.168.1.91; 192.168.1.92; 192.168.1.93; 三、下载安装Kafka 进入 kafka 官方网站下载kafka 地址： https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka-1.1.0-src.tgz

如何在Redhat7.4的CDH5.15中启用Kerberos

阅读更多关于如何在Redhat7.4的CDH5.15中启用Kerberos

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的在前面的文章中，Fayson介绍了《如何在Redhat7.4安装CDH5.15 》，这里我们基于这个环境开始安装MIT Kerberos。关于在CDH中启用Kerberos也可以参考之前的文章《如何在CDH集群启用Kerberos 》，《如何在Redhat7.3的CDH5.14中启用Kerberos 》和《如何在CDH6.0.0-beta1中启用Kerberos 》。本文Fayson主要介绍如何而在Redhat7.4的CDH5.15中启用Kerberos。内容概述： 1.如何安装及配置KDC服务 2.如何通过CDH启用Kerberos 3.如何登录Kerberos并访问Hadoop相关服务 4.总结测试环境： 1.操作系统：Redhat7.4 2.CDH5.15 3.采用root用户进行操作 2.KDC服务安装及配置本文档中将KDC服务安装在Cloudera Manager Server所在服务器上（KDC服务可根据自己需要安装在其他服务器） 1.在Cloudera Manager服务器上安装KDC服务 [root@ip-

hadoop生态系列

阅读更多关于 hadoop生态系列

1、 hadoop高可用安装和原理详解 2、 hadoop2.7+spark2.2+zookeeper3.4.简单安装 3、 windows下通过idea连接hadoop和spark集群 4、 hadoop2.7之作业提交详解（上） 5、 hadoop2.7之作业提交详解（下） 6、 hadoop2.7作业提交详解之文件分片 7、 hadoop之hdfs命令详解 8、 hadoop之hdfs架构详解 9、 hadoop之mapreduce详解（基础篇） 10、 hadoop之mapreduce详解（进阶篇） 11、 hadoop之mapreduce详解（优化篇） 12、 hadoop之yarn详解（基础架构篇） 13、 hadoop之yarn详解（命令篇） 14、 hadoop之yarn详解（框架进阶篇）来源： oschina 链接： https://my.oschina.net/u/4387530/blog/3390616

Hadoop 生态系列之 HDFS

阅读更多关于 Hadoop 生态系列之 HDFS

目前 Hadoop 系列文章的规划就是这样，持续补充完善中... 同时可以访问 https://data.cuteximi.com Hadoop 生态系列之1.0和2.0架构 Hadoop 生态系列之 HDFS Hadoop 生态系列之 Mapreduce Hadoop 生态系列之 Yarn Hadoop 生态系列之 Zookeeper Hadoop 生态系列之 Hive Hadoop 生态系列之 HBase 上一篇文章 Hadoop 系列之 1.0和2.0架构中，提到了 Google 的三驾马车，关于分布式存储，计算以及列式存储的论文，分别对应开源的 HDFS,Mapreduce以及 HBase。这里的 HDFS 是分布式文件系统，主要用于数据的存储。它的应用非常广泛，作为一款开源的文件系统，其高容错性、可靠性以及可部署在廉价机器上的特点，受到很多开发者的青睐。今天我们就来撩一撩这个分布式文系统，HDFS 全称 Hadoop Distributed File System，初学者只需要知道我们大数据解决的两个主要问题就可以了，一个是数据如何存储，另一个是数据如何计算。本文的 HDFS 就是数据存储的一种方式。好了，说了这么多，大家应该对这个 HDFS 有一个清晰的认识了吧？说白了，就是一个文件系统，但是与我们普通的文件系统有很多不同。比如：多副本，分布式，自动备份等等。

hadoop入门篇-hadoop下载安装教程（附图文步骤）

阅读更多关于 hadoop入门篇-hadoop下载安装教程（附图文步骤）

在前几篇的文章中分别就虚拟系统安装、 LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程，本篇分享的是hadoop的下载安装步骤。在此之前有必要做一个简单的说明：分享的所有内容是以个人的操作经验为基础，有的人看完可能会说跟他做过的不一样。这个可能还是跟大家所使用的发行版 hadoop不同造成的吧。我是下载的一个大快搜索的DKhadoop发行版，三个节点的标准版本，个人研究或者学习hadoop三节点完全够用。DKhadoop三节点的发行版我记得是现在应该也是免费开放下载的，之前专门就免费版和付费版有无区别的问题问过他们，免费版本和付费版本在后台功能上没有区别，所有权限都对免费版本开放。本篇分享 hadoop的安装步骤依然是也DKhadoop为例。DKhadoop的安装可以说真的是很简单。五月份的时候跟和大二、大三的几个学生聊hadoop的事情，他们吐槽点都集中在环境的搭建安装。一次性安装成功这种事情是不存在的，折腾到崩溃却是事实。我让他们去下载DKHadoop安装试一下，至于后来试没试就不得而知了。下面就切入正题，看完整个安装步骤你会发现hadoop安装原来也可以这么简单！一、 DK H安装包下载安装包上传在了网盘，需要安装包的朋友可以留言索要！再次下载的步骤就省略不写了。二、 DKH安装步骤 1 、登录：启动成功后访问 IP

How to list file keys in Databricks dbfs without dbutils

阅读更多关于 How to list file keys in Databricks dbfs **without** dbutils

问题 Apparently dbutils cannot be used in cmd-line spark-submits, you must use Jar Jobs for that, but I MUST use spark-submit style jobs due to other requirements, yet still have a need to list and iterate over file keys in dbfs to make some decisions about which files to use as input to a process... Using scala, what lib in spark or hadoop can I use to retrieve a list of dbfs:/filekeys of a particular pattern? import org.apache.hadoop.fs.Path import org.apache.spark.sql.SparkSession def ls

订阅 Hadoop