Hadoop

大数据简介,技术体系分类整理

独自空忆成欢 提交于 2020-10-15 00:44:48
本文源码: GitHub·点这里 || GitEE·点这里 一、大数据简介 1、基础概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量数据的存储和分析。 2、特点分析 大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 3、发展过程 Google在2004年前后发表的三篇论文,分别是文件系统GFS、计算框架MapReduce、NoSQL数据库系统BigTable。海量数据文件,分析计算,并存储,确立了大数据的基本原理和思路。 天才程序员DougCutting,也是Lucene、Nutch项目发起人。根据Google论文原理初步实现类似GFS和MapReduce的功能,后来发展成为大名鼎鼎的Hadoop。 再后来,Hadoop经过高速的发展,已经形成一个生态体系,基于Hadoop之上,有实时计算,离线计算,NoSQL存储,数据分析,机器学习等一系列内容。 从这一系列事情发展看技术规律:Google业务实践中创造性的提出论文作为基础,业务的成长和需求,迫使技术不断更新换代。所以业务是技术不断发展的关键。 二、Hadoop框架

有赞数据库服务设计与实践-3306π南京站

大憨熊 提交于 2020-10-14 16:35:33
主题 : 「3306π」南京站活动专访 杨奇龙《有赞数据库服务设计与实践》 大纲 : 1、杨老师,一直持续在各个技术方面,为大家输出精彩文章,请问您是如何在工作之余进行的技术总结呢?您的学习方法可否分享给大家? 2、各个企业都在引用开源或者自研数据库服务或平台来进行工作提效,请问杨老师如何量化数据库服务带来的成果呢? 3、请问杨老师,有赞数据库服务的开发团队非常高效,但一般中小企业都会希望DBA本身负责研发相关工作,杨老师可否谈谈您对DBA的定位和发展建议呢? 4、 请问杨老师,一般企业在规划数据库服务平台从0到1过程,您比较推荐哪种模块依次开发的顺序来,实现平台的有效设计和有效推广呢? 分享时间 : 2020年10月17日 13:00-18:00 扫一扫左边二维码, 立刻报名本次活动。 嘉宾自我介绍 杨奇龙 杭州有赞 DBA ,运营公众号yangyidba 。负责有赞数据库架构设计,数据库服务治理,故障诊断等等 01 杨老师,一直持续在各个技术方面,为大家输出精彩文章,请问您是如何在工作之余进行的技术总结呢?您的学习方法可否分享给大家? 关于写文章这件事上可以看出我记得我从2009年5月份在itpub的博客写了第一篇文章,基本一路写到现在,算是兴趣和对技术的坚持吧。平时利用工作的机会收集案例,素材,查看官方文档,网络其他牛人的博客等,利用空余时间 做技术试验测试,然后汇总写写文章

hadoop2.7.2搭建完全分布式集群

 ̄綄美尐妖づ 提交于 2020-10-13 16:01:41
新建虚拟机 修改虚拟机的静态IP 修改主机名,添加主机和ip的映射关系 关闭防火墙 (1-4 通过脚本完成) 创建普通用户   useradd jinghang   passwd jinghang 配置普通用户具有root权限   vim /etc/sudoers     在91行下添加如下内容:     jinghang ALL=(ALL) NOPASSWD:ALL 完成后:wq! 7.在/opt目录下创建文件夹(software存放压缩软件包,modul存放解压后的软件包) 在/opt目录下创建module、software文件夹 mkdir /opt/module /opt/software 修改module、software文件夹所有者和所属组 chown jinghang:jinghang /opt/module /opt/software 8、关机拍摄快照 9、从拍照位置克隆三台虚拟机 10、克隆虚拟机有两个网卡(三台都需要改): 进入这个文件 vim /etc/udev/rules.d/70-persistent-net.rules  1.删除 NAME="eth0"这一行  2.修改NAME="eth1" -> NAME="eth0" (:wq!)  3.复制ADDR地址(虚拟mac地址)  4.进入到 vim /etc/sysconfig/network

PINGPONG技术文档:数据分析三剑客+MySQL+可视化套餐+量化分析+Hadoop仓库

隐身守侯 提交于 2020-10-10 04:14:21
Python作为一门学习上手快、代码优雅的编程语言,一直以来都是最热门的几种语言之一,Python一直有胶水语言之称,应用场景相当广泛,在当下数据分析的热潮中,Python有效将各种技术结合,使得分析更加简单。总结一下数据分析必备技能,希望可以帮助到各位。 总结一下数据分析必备技能,希望可以帮助到各位。 一、数据分析三剑客 Nump多维数组的创建、处理 线性函数、矩阵详解 Pandas数据结构 高斯分布、卡方分布 Pandas下的绘图机制 Matplotlib绘图流程、方法 数据加载、清理、存储、转化、合并、重塑等多方位分析 二、MySQL 多种数据库特点与应用场景 MySQL实战 MySQL入门指南 MySQL多平台的安装部署 MySQL可视化工具与数据的导入导出 多表关系设计与字段约束 SQL实现销售任务派发系统 三、可视化套餐技术整理 使用Django搭建Web项目、Web接口展示 浏览器与WEB服务器的通信原理 路由、视图、模板、模型的关联原理 Seaborn各种图谱绘制 Tableau工作表、仪表盘、故事详解 四、量化分析资料汇总 数学建模 易拉罐形状和尺寸的最优设计 算法详解 “一口价”的战略 财务质量因子研究 算法模型的评价标准 五、Hadoop全面解析 Hadoop原理 MapReduce与Python编程详解 级联MapReduce原理分析 Combiner解析

MapReduce编程实践

倾然丶 夕夏残阳落幕 提交于 2020-10-09 18:48:14
MapReduce编程实践 重要知识点: MapReduce是一种分布式并行编程模型,是Hadoop核心子项目之一,如果已经安装了Hadoop,就不需要另外安装MapReduce。 主要的理论知识点包括:MapReduce概述、MapReduce的工作流程,WordCount实例分析,MapReduce的具体应用。 掌握MapReduce的核心思想、编程模型、工作原理和实例分析。 MapReduce的程序可以用Eclipse编译运行或使用命令行编译打包运行,本实验使用Eclipse编译运行MapReduce程序。 实验内容与步骤: 一、Eclipse的安装与配置 该部分实验前面已经做过,省略 https://blog.csdn.net/weixin_43640161/article/details/108691921 二、Hadoop-Eclipse-Plugin的安装与配置 安装 Hadoop-Eclipse-Plugin 要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-plugin 下载地址: http://pan.baidu.com/s/1i4ikIoP 下载后,将 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar (还提供了 2.2.0 和 2.4.1 版本)复制到

无法访问50070的原因及解决方法

心已入冬 提交于 2020-10-09 18:45:53
在Hadoop集群搭建完成后,hadoop本身自带了一个webUI访问页面,我们可以观察到一些集群的基本状况,包括磁盘容量和集群节点是否正常存活状态,Hadoop版本,可以查看hdfs的一些文件位置,副本备份情况和文件块大小等。虽然功能简单一些,但是也还可以,能看一些集群的基本信息。当然我们也可以根据需要来自定义开发需要的功能,实现网页操作所有的服务。 搭建完hadoop集群后,启动hdfs进程后,jps 查看也有相应的进程, 测试一下hdfs dfs -put 文件到 集群上也正常,想用网页查看一下,缺发现不能打开网页。这就奇怪了啊。以下是不能访问webUI的原因。 1. 首先要查看配置文件中是否启用了50070的端口访问。如果没有那当然不能访问了哦 编辑配置文件hdfs-site.xml 没有就增加 这一段内容: <property> <name>dfs.namenode.http.address</name> <value>slave1:50070</value> </property> 添加后:wq保存,重新启动一下集群。再次访问即可。一般是正常可以访问的。 2. 应该是防火墙没有关闭,也没有设置端口允许通过防火墙访问规则,导致被拦截不能访问。 一般最好是关闭防火墙比较关闭。 systemctl stop firewalld.service 关闭防火墙; 禁止自动启动就用

第一章 大数据Hadoop生态圈之分布式存储系统HDFS

一笑奈何 提交于 2020-10-07 07:20:53
1.1 什么是HDFS? HDFS是一个分布式文件系统,它将文件切成多个小块(block),每块随机存放到任意存储节点。块的大小可通过指定参数设置,最新版默认为128M,旧版为64M。为了避免单点故障引起数据丢失,每块数据会存储多一个相同的副本到不同的存储节点(此专为高并发计算分析设计)。 1.2 优缺点 优点:高并发,高吞吐量数据访问,高容错 缺点:由于特性是存储较大的数据,因此延时高 1.3 namenode和datanode namenode:响应客户端请求,存储元数据(记录数据块分布在哪个机器上),管理目录树 datanode:只要是datanode就可以作为存储节点 1.4 元数据管理 元数据存放在内存空间,同时会镜像到磁盘产生一个叫fsimages的文件,但由于元数据过大,fsimages不会实时同步内存里的元数据,他们之间的差异记录在日志文件edit,每隔一段时间,edit就会和fsimages合并一次,这样和内存里的元数据差异就缩小了 1.5 HDFS shell命令格式 hdfs dfs -操作命令 参数 详细参考官网https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 来源: oschina 链接: https://my.oschina.net

奈学教育《大数据架构师》课程大纲

独自空忆成欢 提交于 2020-10-07 07:09:37
深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等),对这些基础技 术知识动态的排列组合,形成大数据全局架构观,并深入讲述大数据全局架构设计的方方面面,打 造真正满足企业万亿级海量数据规模的数据中台,真正赋能前台业务。同时,在企业万亿级真实项 目落地环节,采用高性能、高可用、高扩展的架构设计原则,技术上更是融合了企业级主流的离线 架构和实时架构,带领大家构建PB级的大数据中台,真正落地“企业千亿级的数据仓库中台”,实现 “企业级数据中心平台”,搞定“企业千亿级广告统一数据流智能分析平台”,掌握“企业级Hadoop平 台全方位二次源码开发”,让学员面对企业各种海量复杂业务场景,给出优雅的大数据架构设计方 案,从而真正成为企业级大数据架构师! ​ 第一阶段:分布式协调组件 第一单元 掌握ZooKeeper的核心设计 ZooKeeper生态体系结构 ZooKeeper总体架构设计 ZooKeeper读写请求流程深度剖析 第二单元 掌握ZooKeeper服务端源码流程 ZooKeeper启动流程源码深度剖析 Master选举算法源码深度剖析 服务端通信模型源码深度剖析 第三单元 掌握ZooKeeper客户端源码流程 客户端启动流程源码剖析 客户端通信模型源码剖析 Session管理机制源码剖析 第四单元 掌握ZooKeeper企业应用

异步请求CloseableHttpAsyncClient的使用

浪子不回头ぞ 提交于 2020-10-07 04:20:51
1、前言 项目有个需求,需要把一些没用影响业务逻辑的http请求改成异步请求,httpclient在4.0后提供新的api CloseableHttpAsyncClient可以使用,记录下使用过程。 2、网络调用类型 (1)传统BIO(Blocking IO) 同步阻塞式IO,服务器实现模式为一个连接一个线程,即客户端有连接请求时服务器端就需要启动一个线程进行处理,如果这个连接不做任何事情会造成不必要的线程开销,当然可以通过线程池机制改善。 (2)NIO(Not-Blocking IO) NIO:同步非阻塞式IO,服务器实现模式为一个请求一个线程,即客户端发送的连接请求都会注册到多路复用器上,多路复用器轮询到连接有I/O请求时才启动一个线程进行处理。 (3)AIO(NIO.2) 异步非阻塞式IO,服务器实现模式为一个有效请求一个线程,客户端的I/O请求都是由OS先完成了再通知服务器应用去启动线程进行处理。 3、CloseableHttpAsyncClient CloseableHttpAsyncClient是apache在4.0后提供AIO操作的api,基本使用如下 1)pom.xml引用如下 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId>

Hive的基本介绍以及常用函数

怎甘沉沦 提交于 2020-10-07 01:00:08
一、Hive的简介:    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 优点: 1 ) 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 2 ) 避免了去写MapReduce,减少开发人员的学习成本。 3 ) Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。 4 ) Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。 5 ) Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。 缺点: 1 )Hive的HQL表达能力有限 2 )Hive的效率比较低 二、Hive的架构图 三、Hive的数据类型 基本数据类型:   Hive数据类型 Java数据类型   TINYINT    byte   SMALINT    short   INT int   BIGINT     long   BOOLEAN    boolean   FLOAT     float   DOUBLE    double   STRING string   TIMESTAMP 时间类型   BINARY 字节数组 集合   STRUCT 和c语言中的struct类似,都可以通过“点”符号访问元素内容。例如,如果某个列的数据类型是STRUCT{first