思考
1、Hadoop 是什么?Hadoop 是怎么产生的?
2、Hadoop 应用在哪里?Hadoop 能解决什么问题?
3、Hadoop 怎么使用?Hadoop 是如何工作的?
4、Hadoop 的核心设计思想和底层实现原理是什么?
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加
工的的原始素材。
数据可以是连续的值,比如声音、图像,称为模拟数据。
也可以是离散的,如符号、文字,称为数字数据。
在计算机系统中,数据以二进制信息单元 0,1 的形式表示。
大数据指的是传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集
单位数据量最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、
ZB、YB、BB、NB、DB
大数据特点容量大,种类多,速度快,价值高
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息
新浪微博,3 亿用户,每天上亿条微博
朋友圈,8 亿用户,每天亿级别朋友圈
种类(Variety):数据类型的多样性,包括文本,图片,视频,音频
结构化数据:可以用二维数据库表来抽象,抽取数据规律
半结构化数据:介于结构化和非结构化之间,主要指 XML,HTML 等,也可称非结构化
非结构化数据:不可用二维表抽象,比如图片,图像,音频,视频等
速度(Velocity):指获得数据的速度以及处理数据的速度
数据的产生呈指数式爆炸式增长
处理数据要求的延时越来越低
价值(Value):合理运用大数据,以低成本创造高价值
综合价值大,隐含价值大
单条数据记录无价值,无用数据多
总结:
1、数据量大,处理难度大,但是蕴含价值也大
2、数据种类多样,更加个性化,针对不同数据源进行多样化的方式处理,结果更精确
3、要求对数据进行及时处理,追求更极致更完善的用户体验
4、数据成为新的资源,掌握数据就掌握了巨大的财富
大数据崛起的根本原因:
1、数据生成的速度呈指数式爆炸增长
2、数据的存储成本指数下降
3、流动数据增加,云端数据增加
4、企业可用数据资源增大
hadoop的产生背景
-
Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网
页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题
——如何解决数十亿网页的存储和索引问题
Stay hungry Stay foolish – http://blog.csdn.net/zhongqi2513 -
2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案
1、分布式文件系统 GFS,可用于处理海量网页的存储
2、分布式计算框架 MapReduce,可用于处理海量网页的索引计算问题
3、分布式数据库 BigTabl,每一张表可以存储上 billions 行和 millions 列 -
Nutch 的开发人员完成了相应的开源实现 HDFS 和 MapReduce,并从 Nutch 中剥离成为
独立项目 Hadoop,到 2008 年 1 月,Hadoop 成为 Apache 顶级项目,迎来了它的快速发
展期
什么是hadoop
1、Hadoop 是 Apache 旗下的一套开源软件平台
2、Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分
布式处理
3、Hadoop 的核心组件有
A.Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPC
B.HDFS(Hadoop Distributed File System 分布式文件系统)
C.YARN(Yet Another Resources Negotiator 运算资源调度系统)
D.MapReduce(Map 和 Reduce 分布式运算编程框架)
4、广义上来说,Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈
5、官网介绍:http://hadoop.apache.org/
hadoop 在大数据和云计算当中的位置和关系
- 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡
等传统计算机技术和互联网技术融合发展的产物。借助 IaaS(基础设施即服务)、PaaS(平
台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户 - 现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术”
- 而 Hadoop 则是云计算的 PaaS 层的解决方案之一,并不等同于 PaaS,更不等同于云计算
本身
最后总结:hadoop 并不会跟某个具体的行业或者某个具体的业务挂钩,它只是一种用来做
海量数据分析处理的工具
来源:CSDN
作者:小学猿
链接:https://blog.csdn.net/qq_43559559/article/details/104010525