Hadoop 数据库 - HBase
转自: http://blog.csdn.net/iAm333 1 什么是HBase? HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉价的PC服务器上搭建起大规模结构化的存储集群。它底层的文件系统使用HDFS,使用Zookeeper来管理集群的HMaster和各Region server之间的通信,监控各Region server的状态,存储各Region的入口地址等。 2. 何时用HBase? 首先想想传统的关系型数据库都有哪些特点,大概的特点有: 支持事务,ACID(原子性、一致性、隔离性和持久性)特性; 行式存储; SQL语句使用起来比较方便; 支持索引、视图等; 在下面几种情况下,可以考虑使用HBase替代关系数据库: 系统需要适应不同种类的数据格式和数据源,不能预先严格定义模式,需要处理大规模数据; 不强调数据之间的关系,所要存储的数据是半结构化或非结构化的; 数据非常稀疏; 想要更好的进行扩展; 比如谷歌就将BigTable用来存储网页的索引数据,索引数据就很好的满足了上面的几点要求。 3. 与Hive、Pig的区别? HBase是低延迟、非结构化和面向编程的,而Hive是高延迟、结构化和面向分析的; Hive本身不存储和计算数据,它完全依赖与HDFS和MapReduce