Hadoop | 易学教程

Go语言优秀应用开发框架 GoFrame

阅读更多关于 Go语言优秀应用开发框架 GoFrame

GF(Go Frame) 是一款模块化、高性能、生产级的Go基础开发框架。实现了比较完善的基础设施建设以及开发工具链，提供了常用的基础开发模块，如：缓存、日志、队列、数组、集合、容器、定时器、命令行、内存锁、对象池、配置管理、资源管理、数据校验、数据编码、定时任务、数据库 ORM 、TCP/UDP组件、进程管理/通信等等。并提供了Web服务开发的系列核心组件，如：Router、Cookie、Session、Middleware、服务注册、模板引擎等等，支持热重启、热更新、域名绑定、 TLS/HTTPS 、Rewrite等特性。 #特点 · 模块化、松耦合设计； · 模块丰富，开箱即用； · 简便易用，易于维护； · 社区活跃，大牛谦逊低调脾气好； · 高代码质量、高单元测试覆盖率； · 详尽的开发文档及示例； · 完善的本地中文化支持； · 更适合企业及团队使用； #地址 · 主库： https://github.com/gogf/gf · 码云： https://gitee.com/johng/gf #安装 go get -u -v github.com/gogf/gf · 推荐使用 go.mod: require github.com/gogf/gf latest #限制 golang版本 >= 1.11 #架构 ※部分文章来源于网络，如有侵权请联系删除；更多文章和资料

CDH常用端口汇总

阅读更多关于 CDH常用端口汇总

参考文章： CDH常用端口汇总 Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 10020：historyserver端口 Zookeeper: 2181 ：客户端连接zookeeper的端口 2888 ： zookeeper集群内通讯使用，Leader监听此端口 3888 ： zookeeper端口用于选举leader Hbase: 60010：Hbase的master的WEB UI端口 60030：Hbase的regionServer的WEB UI 管理端口 Hive: 9083 : metastore服务默认监听端口 10000：Hive 的JDBC端口 Spark： 7077 ： spark 的master与worker进行通讯的端口 standalone集群提交Application的端口 8080 ： master的WEB UI端口资源调度 8081 ： worker的WEB UI 端口资源调度 4040 ： Driver的WEB UI 端口任务调度 18080：Spark History Server的WEB UI 端口 Kafka：

java大数据最全课程学习笔记(5)--MapReduce精通(一)

阅读更多关于 java大数据最全课程学习笔记(5)--MapReduce精通(一)

目前 CSDN , 博客园 , 简书同步发表中,更多精彩欢迎访问我的 gitee pages 目录 MapReduce精通(一) MapReduce入门 MapReduce定义 MapReduce优缺点优点缺点 MapReduce核心思想 MapReduce进程 MapReduce编程规范 WordCount案例实操 Hadoop序列化序列化概述常用数据序列化类型自定义bean对象实现序列化接口（Writable）序列化案例实操 MapReduce精通(一) MapReduce入门 MapReduce定义 MapReduce优缺点优点缺点 MapReduce核心思想总结：分析WordCount数据流走向深入理解MapReduce核心思想。 MapReduce进程 MapReduce编程规范用户编写的程序分成三个部分：Mapper、Reducer和Driver。 WordCount案例实操需求在给定的文本文件中统计输出每一个单词出现的总次数输入数据期望输出数据 hadoop 2 hello 4 spark 1 world 3 需求分析按照MapReduce编程规范，分别编写Mapper，Reducer，Driver，如图所示。环境准备创建maven工程在pom.xml文件中添加如下依赖 <dependencies> <dependency>

大数据课设笔记2：Win10 Spark集群本地开发环境搭建

阅读更多关于大数据课设笔记2：Win10 Spark集群本地开发环境搭建

Win10 Spark集群本地开发环境搭建一、安装Java 1.下载java 2.安装java 3.配置环境变量二、安装scala 1.下载scala 2.安装scala 3.配置scala环境变量 4.验证安装三、安装Hadoop 1.下载hadoop2.7.7 2.解压hadoop 3.配置hadoop环境变量 4.验证安装 5.配置hadoop插件四、安装maven 五、安装Scala IDE 1.下载Scala IDE 2.解压zip包 3.配置maven工程六、利用maven创建Spark工程并使用scala编程 1.创建工程 2.编写一个单词计数程序这里附上WIN10 利用docker toolbox搭建hadoop和spark集群的方法一、安装Java 1.下载java jdk1.8下载链接 2.安装java Win：双击可执行文件 Linux：解压压缩包 3.配置环境变量请参考菜鸟教程，这里不多介绍。二、安装scala 注意：该步骤非必须，如果使用Scala IDE自带的scala可以直接跳过 1.下载scala 传送门 2.安装scala 将压缩包找一个目录解压 3.配置scala环境变量在系统变量中添加SCALA_HOME及安装目录，在PATH里添加% %SCALA_HOME%\bin 4.验证安装 powershell里输入命令

Hadoop V2 yarn与Hadoop V1 MapReduce对比

阅读更多关于 Hadoop V2 yarn与Hadoop V1 MapReduce对比

对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架 1、Hadoop v1 1.1 Hadoop v1 MapReduce 架构图 1.2 Hadoop v1 MapReduce程序的流程及设计思路首先用户程序 (JobClient) 提交了一个 job，job 的信息会发送到 Job Tracker 中，Job Tracker 是 Map-reduce 框架的中心，他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些机器上，需要管理所有 job 失败、重启等操作。 TaskTracker 是 Map-reduce 集群中每台机器都有的一个部分，他做的事情主要是监视自己所在机器的资源情况。 TaskTracker 同时监视当前机器的 tasks 运行状况。TaskTracker 需要把这些信息通过 heartbeat 发送给 JobTracker，JobTracker 会搜集这些信息以给新提交的 job 分配运行在哪些机器上。上图虚线箭头就是表示消息的发送 - 接收的过程。 1.3 Hadoop v1 MapReduce程序问题 JobTracker 是 Map-reduce 的集中处理点，存在单点故障。 JobTracker 完成了太多的任务，造成了过多的资源消耗，当 map-reduce job

Processing Hive Lookup tables in Spark vs Spark Broadcast variables

阅读更多关于 Processing Hive Lookup tables in Spark vs Spark Broadcast variables

来源： https://stackoverflow.com/questions/41113781/processing-hive-lookup-tables-in-spark-vs-spark-broadcast-variables

Processing Hive Lookup tables in Spark vs Spark Broadcast variables

阅读更多关于 Processing Hive Lookup tables in Spark vs Spark Broadcast variables

来源： https://stackoverflow.com/questions/41113781/processing-hive-lookup-tables-in-spark-vs-spark-broadcast-variables

计算机界10位顶尖人物，看看谁是你的偶像

阅读更多关于计算机界10位顶尖人物，看看谁是你的偶像

今天主要想和大家一起来了解一下计算机界那些为开源做出巨大贡献大佬们！吃水不忘挖井人，我们每天用着别人写的开源操作系统、编程语言、工具、应用框架，是时候该好好感谢和致敬一波大佬们了！林纳斯·托瓦兹英文名：Linus Torvalds 主要开源贡献：Linus Torvalds发明了 Linux 操作系统，是Linux内核的缔造者，这也是当今全球最流行的操作系统之一。除此之外，Linus Torvalds 本人同样也是Git的缔造者，Git可以说是目前世界上最牛批的分布式版本控制系统(没有之一)！吉多·范罗苏姆英文名：Guido van Rossum 主要开源贡献： Guido van Rossum是一位荷兰籍程序员，1982年在阿姆斯特丹大学获得数学和计算机科学硕士学位。他是Python编程语言的创建者，被称为Python之父！2005年12月，吉多·范罗苏姆加入Google，在那里他把一半的时间用来维护 Python 的开发。肯·汤普逊英文名：Ken Thompson 主要开源贡献： Ken Thompson在贝尔实验室工作期间设计并实现了Unix操作系统，同时他也是B编程语言和UTF-8编码的创造者（UTF-8编码使计算机能够以多种语言显示和交换数据），而且他也与下文要讲的丹尼斯·里奇共同设计了C语言，同时他也是编程语言Go的共同作者，肯

Apache Kafka 不需要管理员：删除 Apache ZooKeeper 的依赖

阅读更多关于 Apache Kafka 不需要管理员：删除 Apache ZooKeeper 的依赖

目前，Apache Kafka 使用 Apache ZooKeeper 来存储它的元数据，比如分区的位置和主题的配置等数据就是存储在 ZooKeeper 集群中。在 2019 年社区提出了一个计划，以打破这种依赖关系，并将元数据管理引入 Kafka 本身。所以 Apache Kafka 为什么要移除 Zookeeper 的依赖？Zookeeper 有什么问题？实际上，问题不在于 ZooKeeper 本身，而在于外部元数据管理的概念。拥有两个系统会导致大量的重复。毕竟，Kafka 是一个分布式的发布-订阅消息系统，而 ZooKeeper 其实也是一个分布式日志系统，其上有一个文件系统 API。每种方法都有自己的网络通信、安全、监视和配置方法。如果同时使用这两个系统，则系统的总体复杂性大约会增加一倍，这导致了不必要的学习曲线，并增加了错误配置导致安全漏洞的风险。同时，在外部存储元数据并不是很好的。我们至少需要运行三个额外的 Java 进程，有时甚至更多。事实上，我们经常看到具有与 Kafka 节点一样多的 ZooKeeper 节点的 Kafka 集群！此外，ZooKeeper 中的数据还需要缓存在 Kafka 控制器上，这导致了双重缓存。更糟糕的是，在外部存储元数据限制了 Kafka 的可伸缩性。当 Kafka 集群启动时，或者一个新的控制器被选中时，控制器必须从

认识Hive，以及Hive的数据定义与数据操作，hive的数据查询和hive函数

阅读更多关于认识Hive，以及Hive的数据定义与数据操作，hive的数据查询和hive函数

认识Hive 为什么要出现hive 前面知识我们讲到mapreudce计算框架，各位需要通过java编码的形式来实现设计运算过程，这对各位的编程能力提出了更高的要求，难道没有门槛更低的方式来实现运算的设计吗？Hive出现的目的就是为了解决这个问题。 Hive的设计目的是为了让那些精通SQL技能而Java技能较弱的数据分析师能够利用Hadoop进行各种数据分析。对于前面的WordCount例子，Java代码大概在80行左右，这对于经验丰富的Java开发工程师来说也不是易事，但如果用Hive的查询语言(即HiveQL)来完成的话，只有几行代码: 可以看出HiveQL的语法和SQL非常类似。在实际开发中，80%的操作都不会由MapReduce程序直接完成，而是由Hive来完成，所以Hive本身实践性非常强，并且使用频率非常高，只需要对SQL熟练即可简单来说就是为了那些精通sql的人哈！！ Hive显著地降低了使用Hadoop来做数据分析的学习成本，对于精通Java的人来说，Hive任然是首选，因为Hive稳定，代码精简并且易于维护。常用的count、group by、order by、join等SQL操作都可以由Hive来完成，在某种意义上，Hive可以说是HiveQL(SQL)到Mapreduce的映射器，或者说是对Mapreduce任务的高度封装

订阅 Hadoop