Hadoop知识点总结
一:大数据概述 一、大数据简介 1. 概念:指无法在一定时间范围内使用常规软件工具进项捕捉、管理和处理数据集合,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 2. 作用: 解决海量数据的存储和海量数据的分析计算问题。 3. 大数据与云计算的关系:大数据必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,有效地处理大量的容忍经过时间内的数据。 二、大数据特征 1. Volume(容量大):数据的大小决定所考虑的数据的价值和潜在的信息。 2. Velocity(速度快):获得并处理数据的效率。是区分传统数据挖掘最显著特征。 3. Variety(多样性):数据类型的多样性。以数据库/文本的结构化数据和以网络日志,图片,音频、视频等为主的非结构化数据。 4. Value(价值):合理运用大数据,以低成本创造高价值。 5. Variability(可变性):妨碍了处理和有效地管理数据的过程。 6. Veracity(真实性):数据的质量。 7. Complexity ( 复杂性 ):数据量巨大,来源多渠道。 三、大数据应用场景 1. 物流仓储:大数据分析系统助力商家精细化运营,提升销量,节约成本。 2. 零售及商品推荐:分析用户消费习惯,给用户推荐可能喜欢的商品,为用户购买商品提供方便。 3. 旅游:深度结合大数据能力和旅游行业需求