Hadoop | 易学教程

大数据简介，技术体系分类整理

阅读更多关于大数据简介，技术体系分类整理

本文源码： GitHub·点这里 || GitEE·点这里一、大数据简介 1、基础概念大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量数据的存储和分析。 2、特点分析大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。 3、发展过程 Google在2004年前后发表的三篇论文，分别是文件系统GFS、计算框架MapReduce、NoSQL数据库系统BigTable。海量数据文件，分析计算，并存储，确立了大数据的基本原理和思路。天才程序员DougCutting，也是Lucene、Nutch项目发起人。根据Google论文原理初步实现类似GFS和MapReduce的功能，后来发展成为大名鼎鼎的Hadoop。再后来，Hadoop经过高速的发展，已经形成一个生态体系，基于Hadoop之上，有实时计算，离线计算，NoSQL存储，数据分析，机器学习等一系列内容。从这一系列事情发展看技术规律：Google业务实践中创造性的提出论文作为基础，业务的成长和需求，迫使技术不断更新换代。所以业务是技术不断发展的关键。二、Hadoop框架

有赞数据库服务设计与实践-3306π南京站

阅读更多关于有赞数据库服务设计与实践-3306π南京站

主题：「3306π」南京站活动专访杨奇龙《有赞数据库服务设计与实践》大纲： 1、杨老师，一直持续在各个技术方面，为大家输出精彩文章，请问您是如何在工作之余进行的技术总结呢？您的学习方法可否分享给大家？ 2、各个企业都在引用开源或者自研数据库服务或平台来进行工作提效，请问杨老师如何量化数据库服务带来的成果呢？ 3、请问杨老师，有赞数据库服务的开发团队非常高效，但一般中小企业都会希望DBA本身负责研发相关工作，杨老师可否谈谈您对DBA的定位和发展建议呢？ 4、请问杨老师，一般企业在规划数据库服务平台从0到1过程，您比较推荐哪种模块依次开发的顺序来，实现平台的有效设计和有效推广呢？分享时间： 2020年10月17日 13:00-18:00 扫一扫左边二维码，立刻报名本次活动。嘉宾自我介绍杨奇龙杭州有赞 DBA ，运营公众号yangyidba 。负责有赞数据库架构设计，数据库服务治理，故障诊断等等 01 杨老师，一直持续在各个技术方面，为大家输出精彩文章，请问您是如何在工作之余进行的技术总结呢？您的学习方法可否分享给大家？关于写文章这件事上可以看出我记得我从2009年5月份在itpub的博客写了第一篇文章，基本一路写到现在，算是兴趣和对技术的坚持吧。平时利用工作的机会收集案例，素材，查看官方文档，网络其他牛人的博客等，利用空余时间做技术试验测试，然后汇总写写文章

hadoop2.7.2搭建完全分布式集群

阅读更多关于 hadoop2.7.2搭建完全分布式集群

新建虚拟机修改虚拟机的静态IP 修改主机名,添加主机和ip的映射关系关闭防火墙（1-4 通过脚本完成）创建普通用户　　useradd jinghang 　　passwd jinghang 配置普通用户具有root权限　　vim /etc/sudoers 　　　　在91行下添加如下内容：　　　　jinghang ALL=(ALL) NOPASSWD:ALL 完成后:wq! 7.在/opt目录下创建文件夹（software存放压缩软件包，modul存放解压后的软件包）在/opt目录下创建module、software文件夹 mkdir /opt/module /opt/software 修改module、software文件夹所有者和所属组 chown jinghang:jinghang /opt/module /opt/software 8、关机拍摄快照 9、从拍照位置克隆三台虚拟机 10、克隆虚拟机有两个网卡(三台都需要改)：进入这个文件 vim /etc/udev/rules.d/70-persistent-net.rules 　1.删除 NAME="eth0"这一行　2.修改NAME="eth1" -> NAME="eth0" (:wq!) 　3.复制ADDR地址（虚拟mac地址）　4.进入到　vim /etc/sysconfig/network

PINGPONG技术文档：数据分析三剑客+MySQL+可视化套餐+量化分析+Hadoop仓库

阅读更多关于 PINGPONG技术文档：数据分析三剑客+MySQL+可视化套餐+量化分析+Hadoop仓库

Python作为一门学习上手快、代码优雅的编程语言，一直以来都是最热门的几种语言之一，Python一直有胶水语言之称，应用场景相当广泛，在当下数据分析的热潮中，Python有效将各种技术结合，使得分析更加简单。总结一下数据分析必备技能，希望可以帮助到各位。总结一下数据分析必备技能，希望可以帮助到各位。一、数据分析三剑客 Nump多维数组的创建、处理线性函数、矩阵详解 Pandas数据结构高斯分布、卡方分布 Pandas下的绘图机制 Matplotlib绘图流程、方法数据加载、清理、存储、转化、合并、重塑等多方位分析二、MySQL 多种数据库特点与应用场景 MySQL实战 MySQL入门指南 MySQL多平台的安装部署 MySQL可视化工具与数据的导入导出多表关系设计与字段约束 SQL实现销售任务派发系统三、可视化套餐技术整理使用Django搭建Web项目、Web接口展示浏览器与WEB服务器的通信原理路由、视图、模板、模型的关联原理 Seaborn各种图谱绘制 Tableau工作表、仪表盘、故事详解四、量化分析资料汇总数学建模易拉罐形状和尺寸的最优设计算法详解 “一口价”的战略财务质量因子研究算法模型的评价标准五、Hadoop全面解析 Hadoop原理 MapReduce与Python编程详解级联MapReduce原理分析 Combiner解析

MapReduce编程实践

阅读更多关于 MapReduce编程实践

MapReduce编程实践重要知识点： MapReduce是一种分布式并行编程模型,是Hadoop核心子项目之一,如果已经安装了Hadoop，就不需要另外安装MapReduce。主要的理论知识点包括：MapReduce概述、MapReduce的工作流程，WordCount实例分析，MapReduce的具体应用。掌握MapReduce的核心思想、编程模型、工作原理和实例分析。 MapReduce的程序可以用Eclipse编译运行或使用命令行编译打包运行，本实验使用Eclipse编译运行MapReduce程序。实验内容与步骤：一、Eclipse的安装与配置该部分实验前面已经做过，省略 https://blog.csdn.net/weixin_43640161/article/details/108691921 二、Hadoop-Eclipse-Plugin的安装与配置安装 Hadoop-Eclipse-Plugin 要在 Eclipse 上编译和运行 MapReduce 程序，需要安装 hadoop-eclipse-plugin 下载地址： http://pan.baidu.com/s/1i4ikIoP 下载后，将 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar （还提供了 2.2.0 和 2.4.1 版本）复制到

无法访问50070的原因及解决方法

阅读更多关于无法访问50070的原因及解决方法

在Hadoop集群搭建完成后，hadoop本身自带了一个webUI访问页面，我们可以观察到一些集群的基本状况，包括磁盘容量和集群节点是否正常存活状态，Hadoop版本，可以查看hdfs的一些文件位置，副本备份情况和文件块大小等。虽然功能简单一些，但是也还可以，能看一些集群的基本信息。当然我们也可以根据需要来自定义开发需要的功能，实现网页操作所有的服务。搭建完hadoop集群后，启动hdfs进程后，jps 查看也有相应的进程，测试一下hdfs dfs -put 文件到集群上也正常，想用网页查看一下，缺发现不能打开网页。这就奇怪了啊。以下是不能访问webUI的原因。 1. 首先要查看配置文件中是否启用了50070的端口访问。如果没有那当然不能访问了哦编辑配置文件hdfs-site.xml 没有就增加这一段内容: <property> <name>dfs.namenode.http.address</name> <value>slave1:50070</value> </property> 添加后:wq保存，重新启动一下集群。再次访问即可。一般是正常可以访问的。 2. 应该是防火墙没有关闭，也没有设置端口允许通过防火墙访问规则，导致被拦截不能访问。一般最好是关闭防火墙比较关闭。 systemctl stop firewalld.service 关闭防火墙；禁止自动启动就用

第一章大数据Hadoop生态圈之分布式存储系统HDFS

阅读更多关于第一章大数据Hadoop生态圈之分布式存储系统HDFS

1.1 什么是HDFS？ HDFS是一个分布式文件系统，它将文件切成多个小块（block），每块随机存放到任意存储节点。块的大小可通过指定参数设置，最新版默认为128M，旧版为64M。为了避免单点故障引起数据丢失，每块数据会存储多一个相同的副本到不同的存储节点（此专为高并发计算分析设计）。 1.2 优缺点优点：高并发，高吞吐量数据访问，高容错缺点：由于特性是存储较大的数据，因此延时高 1.3 namenode和datanode namenode：响应客户端请求，存储元数据（记录数据块分布在哪个机器上），管理目录树 datanode：只要是datanode就可以作为存储节点 1.4 元数据管理元数据存放在内存空间，同时会镜像到磁盘产生一个叫fsimages的文件，但由于元数据过大，fsimages不会实时同步内存里的元数据，他们之间的差异记录在日志文件edit，每隔一段时间，edit就会和fsimages合并一次，这样和内存里的元数据差异就缩小了 1.5 HDFS shell命令格式 hdfs dfs -操作命令参数详细参考官网https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 来源： oschina 链接： https://my.oschina.net

奈学教育《大数据架构师》课程大纲

阅读更多关于奈学教育《大数据架构师》课程大纲

深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等)，对这些基础技术知识动态的排列组合，形成大数据全局架构观，并深入讲述大数据全局架构设计的方方面面，打造真正满足企业万亿级海量数据规模的数据中台，真正赋能前台业务。同时，在企业万亿级真实项目落地环节，采用高性能、高可用、高扩展的架构设计原则，技术上更是融合了企业级主流的离线架构和实时架构，带领大家构建PB级的大数据中台，真正落地“企业千亿级的数据仓库中台”，实现 “企业级数据中心平台”，搞定“企业千亿级广告统一数据流智能分析平台”，掌握“企业级Hadoop平台全方位二次源码开发”，让学员面对企业各种海量复杂业务场景，给出优雅的大数据架构设计方案，从而真正成为企业级大数据架构师! 第一阶段：分布式协调组件第一单元掌握ZooKeeper的核心设计 ZooKeeper生态体系结构 ZooKeeper总体架构设计 ZooKeeper读写请求流程深度剖析第二单元掌握ZooKeeper服务端源码流程 ZooKeeper启动流程源码深度剖析 Master选举算法源码深度剖析服务端通信模型源码深度剖析第三单元掌握ZooKeeper客户端源码流程客户端启动流程源码剖析客户端通信模型源码剖析 Session管理机制源码剖析第四单元掌握ZooKeeper企业应用

异步请求CloseableHttpAsyncClient的使用

阅读更多关于异步请求CloseableHttpAsyncClient的使用

1、前言项目有个需求，需要把一些没用影响业务逻辑的http请求改成异步请求，httpclient在4.0后提供新的api CloseableHttpAsyncClient可以使用，记录下使用过程。 2、网络调用类型（1）传统BIO（Blocking IO）同步阻塞式IO，服务器实现模式为一个连接一个线程，即客户端有连接请求时服务器端就需要启动一个线程进行处理，如果这个连接不做任何事情会造成不必要的线程开销，当然可以通过线程池机制改善。（2）NIO(Not-Blocking IO) NIO：同步非阻塞式IO，服务器实现模式为一个请求一个线程，即客户端发送的连接请求都会注册到多路复用器上，多路复用器轮询到连接有I/O请求时才启动一个线程进行处理。 (3)AIO(NIO.2) 异步非阻塞式IO，服务器实现模式为一个有效请求一个线程，客户端的I/O请求都是由OS先完成了再通知服务器应用去启动线程进行处理。 3、CloseableHttpAsyncClient CloseableHttpAsyncClient是apache在4.0后提供AIO操作的api，基本使用如下 1）pom.xml引用如下 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId>

Hive的基本介绍以及常用函数

阅读更多关于 Hive的基本介绍以及常用函数

一、Hive的简介: 　　 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。优点： 1 ) 操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。 2 ) 避免了去写MapReduce，减少开发人员的学习成本。 3 ) Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。 4 ) Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。 5 ) Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。缺点： 1 ）Hive的HQL表达能力有限 2 ）Hive的效率比较低二、Hive的架构图三、Hive的数据类型基本数据类型：　　Hive数据类型 Java数据类型　　TINYINT 　　 byte 　　SMALINT 　　 short 　　INT int 　　BIGINT 　　　 long 　　BOOLEAN 　　 boolean 　　FLOAT 　　　 float 　　DOUBLE 　　 double 　　STRING string 　　TIMESTAMP 时间类型　　BINARY 字节数组集合　　STRUCT 和c语言中的struct类似，都可以通过“点”符号访问元素内容。例如，如果某个列的数据类型是STRUCT{first

订阅 Hadoop