大数据与云计算知识点
第一章 1.大数据的四个特点(4V) (1)数据量大(Volume):数据量十分巨大,已经从TB级别跃升到PB级别 (2)数据类型繁多(Variety):分为结构化数据(10%),非结构化数据(90%),非结构化数据包含半结构化数据;结构化数据指存储在关系数据库种的数据,后者种类繁多,包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息,网络日志等 (3)处理速度快(Velocity):实时分析结果、秒级响应 (4)价值密度低(Value):价值密度远低于传统关系数据库种已有的那些数据 2.大数据计算模式 (1)批处理计算: A:MapReduce:大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据集的并行计算。 B:Spark:一个针对大数据集合的低延迟的集群分布式计算系统,比MapReduce快许多 (2)流计算: 流数据是指在时间分布和数量上误先的一系列动态数据集合体,书记的价值随时间的流失而降低,因此必须采用实时计算的方式给出秒级响应。 流计算:可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理、给出有价值的分析结果。 3.云计算 (1).云计算的概念 1.云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力 2.云计算3种服务模式: a:IaaS(基础设施即服务):将基础设施(计算资源(cpu、内存)和存储(磁盘))作为服务出租