hbase

HBase的TTL介绍

六眼飞鱼酱① 提交于 2020-01-19 21:41:36
1. 定义 TTL(Time to Live) 用于限定数据的超时时间。 2.原理 以Column Family的TTL为例介绍, hbase(main):001:0> desc 'wxy:test' Table wxy:test is ENABLED wxy:test COLUMN FAMILIES DESCRIPTION {NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS = > '2', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_CELLS => 'FALSE', BLOC KSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'} {NAME => 'f1', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSIO N => 'NONE', VERSIONS => '5', TTL => 'FOREVER', MIN

Hadoop + ZK + HBase 环境搭建

家住魔仙堡 提交于 2020-01-19 21:31:19
Hadoop 环境搭建 参考资料: http://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/ClusterSetup.html http://hadoop.apache.org/docs/r2.4.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml http://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 下载 2.4.1 bin 包, 解压好以后按照链接上配置各个配置文件, 启动时会遇到 "Unable to load realm info from SCDynamicStore " 的问题, 这个问题需要在 hadoop-env.sh 中加入如下配置(配置 HBase 的时候也会遇到这个问题, 使用同样的方法在 hbase-env.sh 中加入如下配置解决) hadoop-env.sh(hbase-env.sh) 配置, 增加 export JAVA_HOME="/System/Library/Java/JavaVirtualMachines/1.6.0.jdk/Contents/Home" export HBASE_OPTS="

hbase单机配置

折月煮酒 提交于 2020-01-19 20:40:57
zookeeper 安装配置: 1. 解压至任意文件夹 2. /conf/zoo.cfg中 dataDir=/zkData (提前创建 zkData 目录) clientPort=2181 不变 server.1=yourhostname1:2888:3888 server.2=yourhostname2:2888:3888 server.3=yourhostname3:2888:3888 (加上集群配置) 3. 在 zkData 目录下创建 myid 文件,写对应机器编号 4. 分布到其他机器 scp zookeeper-3.4.5-cdh5.10.0 -r hostname2:/ 相应目录 scp zookeeper-3.4.5-cdh5.10.0 -r hostname3:/ 相应目录 5. 更改另外两台机器的 myid 6. 启动 bin/zkServer.sh start 7.zkServer.sh status jps QuorumpeerMain 进程 HDFS 安装配置: 两大主要进程 Namenode 与 Datanode 1. 解压至相应文件夹 2. 配置 etc/hadoop hadoop-env.sh( 环境变量 ) export JAVA_HOME= core-site.xml 配置访问 HDFS 系统的路径 fs.defaultFS ( 官网默认 )

hbase-0.92.1集群部署

…衆ロ難τιáo~ 提交于 2020-01-19 20:37:45
环境 主机名  IP地址 角色 安装目录 sht-sgmhadoopnn-01 172.16.101.55 NameNode、SecondaryNameNode、 JobTracker、HMaster jdk: /opt/jdk1.6.0_45 zookeeper:/opt/zookeeper-3.3.5 软连接 /opt/zookeeper hbase: /opt/hbase-0.92.1 软连接 /opt/hbase hadoop: /opt/hadoop-1.0.3 软连接 /opt/hadoop sht-sgmhadoopdn-01 172.16.101.58 DataNode、TaskTracker、backup-masters、 HRegionServer、zookeeper sht-sgmhadoopdn-02 172.16.101.59 DataNode、TaskTracker、 HRegionServer、zookeeper sht-sgmhadoopdn-03 172.16.101.60 DataNode、TaskTracker、 HRegionServer、zookeeper 一. 系统环境配置 1. hosts文件互相解析 各节点均需设置 172.16.101.55 sht-sgmhadoopnn-01 172.16.101.58 sht

在Hadoop上安装HBase

让人想犯罪 __ 提交于 2020-01-19 20:37:13
  HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问,HBase存储的是松散型数据,具体来说,存储的数据介于映射和关系型数据之间,它是一个开源的、分布式的、多版本的、面向列的存储摸型,它可以直接使用本地文件系统,也可以使用HDFS文件存储系统,下面介绍一下安装过程: 一、解压HBase安装包 二、配置hbase-site.xml文档   通过配置hbase.rootdir(这个目录需要Hadoop自己创建,否则可能会出现警示)参数来指定HBase的数据存放位置,进而让HBase运行在Hadoop之上,   如下图: 三、配置环境变量 配置完以后重启系统,然后启动hbase并进入hbase shell: 由于Hbase自带了Zookeeper,而我装的是单节点伪分布式hadoop,所以不需要再装Zookeeper了。 HBASE_HOME/conf/hbase-env.sh 里有个参数export HBASE_MANAGES_ZK=true 默认为true 即使用hbase默认的zookeeper 如果要使用自己配的 把它改成false。 来源: https://www.cnblogs.com/NicholasLee/archive/2012/09/13/2682943.html

HBase 0.98 分布式集群安装详解

亡梦爱人 提交于 2020-01-19 20:36:22
概述 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 前言 这篇博客应该很早就发表了,只是当时环境搭建好了之后没有及时做笔记,后来又不想重新搭建,所以才拖到今天。还有就是这篇博客安装的是 Hbase-0.98 的版本,与之前说要安装 0.96 的说明不吻合,这里统一说明,之前的博客就不更改了。还有一点就是,本文的安装过程很顺,没有出现什么启动不了,或是运行异常的行为。如果你在安装的过程出现了一些不好的事情,那么你可能会在本文中找到一些蛛丝马迹,也可能一无所获。只是我希望你可以理解到,本文并非胡编乱邹。 版权说明 著作权归作者所有。 商业转载请联系作者获得授权,非商业转载请注明出处。 本文作者: Q-WHai 发表日期: 2016年6月8日 本文链接: http://blog.csdn.net/lemon_tree12138

HBASE的完全分布式搭建

六眼飞鱼酱① 提交于 2020-01-19 19:24:02
今天来教大家如何搭建一个完全分布式的hbase集群: 1.环境确认: 由于hbase的数据是存储在hdfs集群上面,所以你需要搭建一个hdfs集群,而且我们需要使用zookeeper管理我们的hbase集群,所以我们的机器需要安装zookeeper集群。 如图: hadoop集群: 本地环境是有三台机器:master,slave1,slave2,分别是是hdfs的namenode和datanode,其中QuorumPeerMain是zookeeper的java进程,确认上述环境没有问题之后就可以来安装我们的hbase集群了。 2.上传hbase安装包 注意,因为hbase是依赖于hadoop集群的,所以我们需要的hbase版本要和hadoop对应好,我本地的hadoop是2.7.3版本的(可以使用hadoop version查看版本) 按照官网 http://hbase.apache.org/book.html#java 查看版本对应的关系: 所以我下载的hbase版本是2.1.8版本的,上传到服务器 3. 解压 tar -zxvf hbase-2.1.8-bin.tar.gz 我的文件夹是/home/hbase,效果如图: 4.修改配置文件 进入/conf目录: 修改hbase-env.sh 需要修改的一个是jdk的安装位置,一个是使用外部的zk,可以使用 echo $JAVA

Apache Hbase

安稳与你 提交于 2020-01-19 16:06:34
Hbase 概述 Hbase是一个基于Hadoop之上的数据库服务,该数据库是一个分布式、可扩展的大的数据仓库。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™(HDFS虽然可以存储海量数据,但是对数据的管理粒度比较粗糙,只支持对文件的上传下载,并不支持对文件内容行记录级别的修改)。Apache HBase是一个开源,分布式,版本化,非关系型数据库,模仿了谷歌的Bigtable,正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。 HBase和HDFS关系&区别? Hbase是构建在HDFS之上的一个数据库服务,能够使得用户通过HBase数据库服务间接的操作HDFS,能够使得用户对HDFS上的数据实现CRUD操作(细粒度操作)。 Hbase特性-官方 线性和模块化扩展。 严格一致 reads 和 writes. 表的自动和可配置分片(自动分区) RegionServers之间的自动故障转移支持。 方便的基类,用于使用Apache HBase表支持Hadoop MapReduce作业。 易于使用的Java API,用于客户端访问。 Block cache 和 Bloom Filters 以进行实时查询。 列存储 NoSQL

HIVE和HBASE区别

邮差的信 提交于 2020-01-19 12:04:43
两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询–因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种Key/Value系统,它运行在HDFS之上。和Hive不一样,Hbase的能够在它的数据库上实时运行,而不是运行MapReduce任务。Hive被分区为表格,表格又被进一步分割为列簇。列簇必须使用schema定义,列簇将某一类型列集合起来(列不要求schema定义)。例如,“message”列簇可能包含:“to”, ”from” “date”, “subject”, 和”body”. 每一个 key/value对在Hbase中被定义为一个cell,每一个key由row-key,列簇、列和时间戳。在Hbase中,行是key/value映射的集合,这个映射通过row-key来唯一标识。Hbase利用Hadoop的基础设施,可以利用通用的设备进行水平的扩展。 两者的特点 Hive帮助熟悉SQL的人运行MapReduce任务。因为它是JDBC兼容的,同时,它也能够和现存的SQL工具整合在一起。运行Hive查询会花费很长时间

HBase集群搭建实验(3)_完全分布式部署(使用内置ZooKeeper,非HMaster HA)

时间秒杀一切 提交于 2020-01-19 00:21:46
HBase完全分布式模式: 1)不同的HBase进程分别独立运行在多台硬件配置较高的服务器主机构成的集群中,适合HBase的运维和生产环境 2)依赖于HDFS存储数据,因此布署Hbase完全分布式之前必须有一个正常运行的HDFS集群 3)依赖于独立的外部ZooKeeper集群, 使用HBase内置的ZooKeeper 实验前提: HBase完全分布式部署方式依赖Hadoop,本实验紧接Hadoop完全分布式集群部署实验,在Hadoop完全分布式实验完成并运行成功的基础上继续进行Hbase完全分布式(非HA)部署演示 实验目标: 在3台主机组成的小型集群上部署分布式数据库HBase ,用于教学演示 环境要求:虚拟机VirtualBox 操作系统 Centos7 Hadoop版本 hadoop-2.6.0-cdh5.7.0 Hbase版本 hbase-1.2.0-cdh5.7.0.tar.gz 集群规划: 无需复制虚拟机,直接利用完全分布式集群的3台主机master,slave1,slave2完成Hbase完全分布式(非HA)部署 主机IP 主机名 集群角色 192.168.56.20 master HQuorumPeer NameNode DataNode HMaster HRegionServer 192.168.56.21 slave1 HQuorumPeer DataNode