大数据(hadoop)
大数据基础平台 大数据:通俗就是收集、分析、处理大量的数据,然后从中获得结果的技术总称 大数据应用领域 广告、金融、能源生物、安全、电商等等 大数据的技术 批处理框架 历史性数据,有源有结束点 离线型数据 能处理全部的历史性数据 Apache MapReduce 流处理框架 处理实时性数据 源源不断的处理数据 Apache samza Apache storm 混合处理框架 既有批处理也有流处理 Apache flink Apache spark 项目定义 可靠的,可扩展的开源软件 是一个大数据处理框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。 可以从单个服务器扩展到数千台计算机 集群中的媚态计算机都提供本地计算和存储 集群不是依靠硬件来提供高可用性,而是设计了用于检测和处理应用程序层的故障,从而在计算机集群上提供高可用性服务。 hadoop的核心项目 hadoop分布式文件系统(HDFS):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。 hadoop YARN:作业调度和集群资源管理的框架。 hadoop MapReduce: 基于YARN的系统,用于并行处理大型数据集。 相关项目 Apache的其他Hadoop相关项目: Hadoop Common:支持其他Hadoop模块的常用实用程序 Ambari: 基于web的工具,用于配置