大数据的基础概念
hadoop:一个分布式系统基础架构, 是一个能够对大量数据进行 分布式处理 的 软件 框架,是一个能够让用户轻松架构和使用的分布式计算平台。 Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是 MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。 HDFS :Hadoop 分布式文件系统 (Distributed File System) - HDFS (Hadoop Distributed File System) MapReduce : 并行计算 框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API HBase :类似Google BigTable的分布式NoSQL列数据库。( HBase 和 Avro 已经于2010年5月成为顶级 Apache 项目) Hive :数据仓库工具