hbase

HBase API 之 表数据操作

喜你入骨 提交于 2020-03-10 20:18:15
前置博客(必读) HBase API之表操作 具体代码 向表中插入数据 功能代码 public static void addRowData ( String tableName , String rowKey , String columnFamily , String column , String value ) throws IOException { //创建HTable对象 Table table = conn . getTable ( TableName . valueOf ( tableName ) ) ; //向表中插入数据 Put put = new Put ( Bytes . toBytes ( rowKey ) ) ; //向Put对象中组装数据 put . addColumn ( Bytes . toBytes ( columnFamily ) , Bytes . toBytes ( column ) , Bytes . toBytes ( value ) ) ; table . put ( put ) ; table . close ( ) ; System . out . println ( "插入数据成功" ) ; } 测试代码 @Test public void addRowData ( ) throws IOException {

pinpoint清除过期的hbase数据

孤街浪徒 提交于 2020-03-10 19:49:58
个人博客请访问 http://www.x0100.top 版本:   pinpoint:1.7.1   hbase:1.2.6 命令行命令:   $HBASE_HOME/bin/hbase shell newrestruct.hbase 备注:保留一天半的数据(秒) TTL => 129600 cat newrestruct.hbase disable 'AgentInfo' disable 'AgentStatV2' disable 'AgentLifeCycle' disable 'AgentEvent' disable 'ApplicationIndex' disable 'StringMetaData' disable 'ApiMetaData' disable 'SqlMetaData_Ver2' disable 'ApplicationTraceIndex' disable 'TraceV2' disable 'ApplicationMapStatisticsCaller_Ver2' disable 'ApplicationMapStatisticsCallee_Ver2' disable 'ApplicationMapStatisticsSelf_Ver2' disable 'HostApplicationMap_Ver2' drop 'AgentInfo' drop

三节点(Master、Slave1、Slave2)hbase集群的配置(Ubuntu 18.04)

故事扮演 提交于 2020-03-10 19:31:31
** 安装hbase ** hbase下载地址 (我下载的是1.3.6) 下载后缀名为:.tar.gz 的文件 将hbase-1.3.6.tar.gz解压到/usr/local/文件夹下,并改名为hbase: sudo tar - zxf ~ / 下载 / hbase - 1 . 3 . 6 - bin . tar . gz - C / usr / local sudo mv / usr / local / hbase - 1 . 3 . 6 / usr / local / hbase 配置环境变量: vi ~ / . bashrc 如果没有引入过PATH请在~/.bashrc文件尾行添加如下内容: export PATH= $PATH : / usr / local / hbase / bin 编辑完成后,再执行source命令使上述配置在当前终端立即生效: source ~ / . bashrc 添加HBase权限 cd / usr / local sudo chown - R hadoop . / hbase 查看HBase版本,确定hbase安装成功 / usr / local / hbase / bin / hbase version HBase配置 配置/usr/local/hbase/conf/hbase-env.sh,命令如下: sudo vim / usr /

【Hbase】之 热点问题及调优

冷暖自知 提交于 2020-03-09 15:21:27
Hbase的热点问题 热点问题的产生 当大量的客户端访问定向到集群中的一个节点或者几个节点时,就会导致热点问题。此访问操作可能是写入,也可能是读取。大量的访问使得管理该region的计算机不堪重负,从而导致性能下降,并可能导致region的不可用。这也可能对同一RegionServer管理的其他region产生不利影响。 热点问题的解决 采用预分区的方式,解决热点问题 每一个region都维护着一个startRowKey和一个endRowKey,如果加入的范围符合某个region维护的rowkey范围,那么该数据交给这个region来维护,依照这个原则,我们可以将数据所要投放的分区提前大致规划好,提高Hbase的性能。 create 'mydb:table','base_info',SPLITS=>['1000','2000','3000','4000'] 上述的预分区,将一个region分成了五部分 StartKey EndKey 1000 1000 2000 2000 3000 3000 4000 4000 可以插入条数据进入不同的分区: put 'mydb:table','0001','base_info:name','zhangsan' put 'mydb:table','1001','base_info:name','lisi' put 'mydb:table',

【Hadoop大数据平台组件搭建系列(七)】——HBase完全分布式组件配置

烂漫一生 提交于 2020-03-09 13:17:09
文章目录 简介 安装 解压Hbase并重命名 添加Hbase环境变量并刷新环境变量 修改配置文件hbase-env.sh 修改配置文件hbase-site.xml 修改配置文件regionservers 拷贝分发 启动Hbase 检验安装是否成功 最后,记得点赞哦!!!ღ( ´・ᴗ・` )比心!!! 系列文章: 简介 本篇介绍Hadoop大数据平台组件中的HBase组件的搭建(搭建HBase前需搭建完成Hadoop以及zookeeper) 使用软件版本信息 hbase-1.2.12-bin.tar.gz (百度云提取码: zf9f ) 安装 解压Hbase并重命名 tar - zxvf / opt / software / hbase - 1 . 2 . 12 - bin . tar . gz - C / usr / local / scr / 添加Hbase环境变量并刷新环境变量 添加环境变量 #....hbase..... export HBASE_HOME= / usr / local / scr / hbase export PATH= $PATH : $HBASE_HOME / bin 刷新环境变量 source / etc / profile 修改配置文件hbase-env.sh # 指定jdk路径 export JAVA_HOME= / usr / local /

大数据技术之HBase

故事扮演 提交于 2020-03-09 08:44:44
第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006年开始开发HBase -- 2008年北京成功开奥运会,程序员默默地将HBase弄成了Hadoop的子项目 -- 2010年HBase成为Apache顶级项目 -- 现在很多公司二次开发出了很多发行版本,你也开始使用了。 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 ,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google

【Hbase】知识总结

萝らか妹 提交于 2020-03-09 06:14:56
Hbase的简介 Hbase的来源 1、数据量越来越大,传统的关系型数据库,不能满足存储和查询功能的需求。而hive虽然能够满足存储的要求,但是hive的本质也是利用底层的mr,所以读写速度不快,而且hive不能满足非结构化,半结构化的存储,hive主要的作用是分析和统计,hive用于存储是毫无意义的。 2、起源于Google在2006发表的一篇论文《bigtable》,是对bigtable的开源实现的java版本 Hbase的定义 Hbase是一个在HDFS上运行的,面向列的,分布式的,hadoop数据库。他是一个非关系型()(Not Only Sql)的数据库,不是传统的非关系型数据库,对事物支持很差起源于《BigTable》 Hbase的特征 1、适合存储超大规模的数据集,可以提供数据的实施读写。 2、线性扩展好,高的可靠性。 3、Hbase的表模型与关系型数据库的表模型不同: a)Hbase表中没有固定的字段定义 b)Hbase表中每行存储的都是些key-value对 c)Hbase表中有列簇的划分,用户可以指定将哪些kv插入哪个列簇 d)Hbase的表在物理存储上,是按照列簇来切分的,不同列簇的数据一定存储在不同的文件中 e)Hbase表中的每一行都有固定的行键作为唯一标识,每行的行键在表中是不能重复的 4、Hbase中的数据,包含行键、key、value都是byte[

大数据高可用集群环境安装与配置(07)——安装HBase高可用集群

纵然是瞬间 提交于 2020-03-08 15:10:43
1. 下载安装包 登录官网获取HBase安装包下载地址 https://hbase.apache.org/downloads.html 2. 执行命令下载并安装 cd /usr/local/src/ wget http://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.1.8/hbase-2.1.8-bin.tar.gz tar -zxvf hbase-2.1.8-bin.tar.gz mv hbase-2.1.8 /usr/local/hbase/ 3. 修改服务器系统环境变量 所有服务器都需要按要求修改配置 vi /etc/profile 在尾部添加下面配置 export HBASE_HOME=/usr/local/hbase/ export PATH=$PATH:$HBASE_HOME/bin 保存退出后,运行命令,让配置马上生效 source /etc/profile 4. 配置HBase的Java安装路径 vi /usr/local/hbase/conf/hbase-env.sh 在尾部添加下面配置 export JAVA_HOME=/usr/local/java/jdk export HBASE_MANAGES_ZK=false 5. 配置hbase-site.xml 官方文档配置说明: https://hbase.apache

【10笔记】HBase基础

点点圈 提交于 2020-03-08 06:34:16
1、HBase概述 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。 是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,因此可以容错地存储海量稀疏的数据。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 2、HBase特性 1. 海量存储 HBase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与HBase的极易扩展性息息相关。正式因为HBase良好的扩展性,才为海量数据的存储提供了便利。 2. 列式存储 HBase是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指定。 3. 易扩展 HBase的扩展性主要体现在两个方面,一个是基于上层处理能力(RegionServer)的扩展,一个是基于存储的扩展(HDFS)。 通过横向添加RegionSever的机器,进行水平扩展,提升HBase上层的处理能力,提升HBase服务更多Region的能力。 RegionServer的作用是管理region、承接业务的访问,这个后面会详细的介绍通过横向添加Datanode的机器,进行存储层扩容

kylin的cube的原理

杀马特。学长 韩版系。学妹 提交于 2020-03-07 11:57:03
Kylin基本原理及概念 2019-01-24阅读 1K0 “带你走进Apache Kylin的世界” Kylin版本:2.5.1 前言 膜拜大神,Kylin作为第一个由国人主导并贡献到Apache基金会的开源项目,堪称大数据分析界的“神兽”。所以我也是抓紧时间来学习Kylin,感受Kylin所带来的魅力。 一、Kylin简介 Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求,它提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。其核心是预计算,计算结果存在HBase中。 作为大数据分析神器,它也需要站在巨人的肩膀上,依赖HDFS、MapReduce/Spark、Hive/Kafka、HBase等服务。 二、Kylin优势 Kylin的主要优势为以下几点: 可扩展超快OLAP引擎:Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计 Hadoop ANSI SQL 接口:Kylin为Hadoop提供标准SQL支持大部分查询功能 交互式查询能力:通过Kylin,用户可以与Hadoop数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能 多维立方体(MOLAP Cube):用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体 与BI工具无缝整合