Hadoop学习笔记04_Hbase
大数据开发的学习,组件还是很多的,都需要掌握并多加练习。 最好的 参考文档 当然是官方的了。 因为Hadoop生态圈组件很多,所以,在建设之初一定要检查好各版本的兼容性。避免后期麻烦。 我的练习使用Hadoop-2.7.5 以及Hbase-1.4.2 看了Hbase 手册Chapter4 兼容性没有问题。 # 行存储 优点:写入一次性完成,保持数据完整性 缺点:数据读取过程中产生冗余数据,若有少量数据可以忽略 # 列存储 优点:读取过程,不会产生冗余数据,特别适合对数据完整性要求不高的大数据领域 缺点:写入效率差,保证数据完整性方面差 # Hbase优势: 海量数据存储 快速随机访问 大量写操作的应用 # Hbase应用场景 互联网搜索引擎数据存储 海量数据写入 消息中心 内容服务系统(schema - free ) 大表复杂 & 多维度索引 大批量数据读取 # Hbase 数据模型 # 行键 时间戳 列族contens 列族ahchor 列族mime " com.cn.www " t9 anchor:cnnsi.com= " CNN " t8 anchor:my.look.cn = " CNN.com " t6 contens:html = "" mime:type= " text/html " t5 contens:html = "" t3 contens:html = ""