一.大数据概念
概念:最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮
Hadoop:Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
实现过程:
客户提出需求给--产品设计部门
运维部门: 收集数据--搭建分析平台--部署软件
开发部门: 算法--开发--分析
大数据的由来:
随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网,物联网建设的加快,信息更是爆炸式增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这些问题.
大数据的定义:
大数据指无法在一定时间范围内常规软件工具进行捕捉,管理和处理的数据集合,需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产.
是指从各种各样类型的数据中,快速获得有价值的信息
大数据能做什么
1.企业组织利用相关数据分析帮助他们降低成本,提高效率,开发新产品,做出更明智的业务决策
2.把数据集合并后进行分析得出的信息和数据关系性,用来察觉商业趋势,判定研究质量,避免疾病扩撒,打击犯罪或测定即时交通路况等.
3.大规模并行处理数据库,数据挖掘电网,分布式文件系统或数据库,云计算平和可扩展的存储系统等.
大数据特性
大数据5V特性是什么?
Volume 大量体 可从数百TB到数十数百PB,甚至EB的规模
Variety 多样性 大数据包括各种格式和形态的数据
Velocity 实效性 很多大数据需要在一定的时间限度下得到即时处理
Veracity 准确性 处理的结果要保证一定的准确性
Value 大价值 大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值
大数据与hadoop
hadoop是一种分析和处理海量数据的软件开发
hadoop是一款开源软件,使用Java开发
Hadoop可以提供一个分布式基础架构
Hadoop特点: 高可靠性,高扩展性,高效性,高容错性,低成本
hadoop起源
2003年开始Google陆续发表了3篇论文
GFS,MapReduce, BigTable
GFS:是一个可扩展性的分布式文件系统,用于大型的,分布式的,对大数据进行访问的应用
可以运行于廉价的普通硬件上,提供容错功能
MapReduce
MapReduce 是针对分布式进行计算的一套编程模型,由Map和Reduce组成,Map是映射,把指令分发到多个worker上,Reduce是规约,
把worker计算出的结果合并
BigTable
BigTable是存储结构化数据
BigTable建立在GFS,Scheduler,Lock Service 和 MapReduce之上
每个 Table都是一个多维的稀疏图
Hadoop起源
GFS,MapReduce和BigTable三大技术被称为Google的三驾马车,虽然没有公布源码,但发布了三个产品的详细设计论
Yahoo资助的Hadoop,是按照这三篇论文开源Java实现的,但在性能上Hadoop比Google要差很多
GFS ---> HDFS
MapReduce --->MapReduce
BigTable---> Hbse
Hdoop组件
三大核心组件
HDFS MapReduce Yarn
1.HDFS :hadoop 分布式文件系统
角色和概念
1.client
2.namenode:master角色
3.secondarynode:master秘书 合并fsimage和fsedit,整理送给namenode
4.datanode:存储节点
1.client
切分文件,每块切128M,每块可以多个备份,切完块存储在datanode节点上
访问HDFS
与NameNode交互,获取文件位置信息
与datanode交互,读取与写入数据
block 每块缺省128MB大小
2.datanode
数据存储节点
3.namenode:决定客户端把数据存在哪台,配置副本策略
master节点,管理hdfs的(名称空间和数据块映射信息=fsimage),配置副本策略,处理所有的客户端请求
4.secondary namenode:解决棘手的事情
定期合并fsimage和fsedits,推送给namenode
紧急情况下,可辅助恢复namenode
但secondary namenode 并非namenode的热备
2.MapReduce (了解内容,开发使用的)
1.角色和概念
3.Yarn 集群资源管理系统
五大角色:
1.resourcemanager:处理客户端请求,启动/监控applicationmaster,监控nodemanager,资源分配与调动
2.nodemanager 每个节点上的资源管理,处理来自resourcemanager的命令,处理来自applicationmanager的命令
3.container 对任务运行环境的抽象,封装了CPU.内存等,多维资源以及环境变量,启动命令等任务运行相关的信息资源分配与调度
4.applicationmaster 数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错
5.client 用户与yarn交互的客户端程序,提交应用程序,监控应用程序状态,杀死应用程序等
Yarn 的核心思想
Hadoop安装与配置