大数据hadoop概念,安装与配置

天大地大妈咪最大 提交于 2019-12-01 15:31:39

一.大数据概念

概念:最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮

Hadoop:Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

实现过程:

客户提出需求给--产品设计部门

运维部门: 收集数据--搭建分析平台--部署软件

开发部门: 算法--开发--分析

大数据的由来:

随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网,物联网建设的加快,信息更是爆炸式增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这些问题.

 大数据的定义:

大数据指无法在一定时间范围内常规软件工具进行捕捉,管理和处理的数据集合,需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产.

是指从各种各样类型的数据中,快速获得有价值的信息

大数据能做什么

1.企业组织利用相关数据分析帮助他们降低成本,提高效率,开发新产品,做出更明智的业务决策

2.把数据集合并后进行分析得出的信息和数据关系性,用来察觉商业趋势,判定研究质量,避免疾病扩撒,打击犯罪或测定即时交通路况等.

3.大规模并行处理数据库,数据挖掘电网,分布式文件系统或数据库,云计算平和可扩展的存储系统等.

大数据特性

 大数据5V特性是什么?

Volume  大量体      可从数百TB到数十数百PB,甚至EB的规模

Variety 多样性        大数据包括各种格式和形态的数据

Velocity 实效性       很多大数据需要在一定的时间限度下得到即时处理

Veracity 准确性      处理的结果要保证一定的准确性

Value  大价值         大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值

大数据与hadoop

hadoop是一种分析和处理海量数据的软件开发

hadoop是一款开源软件,使用Java开发

Hadoop可以提供一个分布式基础架构

Hadoop特点: 高可靠性,高扩展性,高效性,高容错性,低成本

hadoop起源

2003年开始Google陆续发表了3篇论文

GFS,MapReduce, BigTable

GFS:是一个可扩展性的分布式文件系统,用于大型的,分布式的,对大数据进行访问的应用

可以运行于廉价的普通硬件上,提供容错功能

MapReduce

MapReduce 是针对分布式进行计算的一套编程模型,由Map和Reduce组成,Map是映射,把指令分发到多个worker上,Reduce是规约,

把worker计算出的结果合并

BigTable

BigTable是存储结构化数据

BigTable建立在GFS,Scheduler,Lock Service 和 MapReduce之上

每个 Table都是一个多维的稀疏图

Hadoop起源

GFS,MapReduce和BigTable三大技术被称为Google的三驾马车,虽然没有公布源码,但发布了三个产品的详细设计论

Yahoo资助的Hadoop,是按照这三篇论文开源Java实现的,但在性能上Hadoop比Google要差很多

GFS ---> HDFS

MapReduce --->MapReduce

BigTable---> Hbse

Hdoop组件

 

 

 

 

 

 三大核心组件

HDFS  MapReduce  Yarn

1.HDFS :hadoop 分布式文件系统

角色和概念

1.client

2.namenode:master角色

3.secondarynode:master秘书  合并fsimage和fsedit,整理送给namenode

4.datanode:存储节点

1.client 

切分文件,每块切128M,每块可以多个备份,切完块存储在datanode节点上

访问HDFS

与NameNode交互,获取文件位置信息

与datanode交互,读取与写入数据

block 每块缺省128MB大小

2.datanode

数据存储节点

3.namenode:决定客户端把数据存在哪台,配置副本策略

master节点,管理hdfs的(名称空间和数据块映射信息=fsimage),配置副本策略,处理所有的客户端请求

4.secondary namenode:解决棘手的事情

定期合并fsimage和fsedits,推送给namenode

紧急情况下,可辅助恢复namenode

但secondary namenode 并非namenode的热备

 2.MapReduce (了解内容,开发使用的)

 1.角色和概念

 

 

 

3.Yarn  集群资源管理系统

五大角色:

1.resourcemanager:处理客户端请求,启动/监控applicationmaster,监控nodemanager,资源分配与调动

2.nodemanager 每个节点上的资源管理,处理来自resourcemanager的命令,处理来自applicationmanager的命令

3.container 对任务运行环境的抽象,封装了CPU.内存等,多维资源以及环境变量,启动命令等任务运行相关的信息资源分配与调度

4.applicationmaster 数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错

5.client 用户与yarn交互的客户端程序,提交应用程序,监控应用程序状态,杀死应用程序等

Yarn 的核心思想

 

Hadoop安装与配置

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!