hbase

Which HBase connector for Spark 2.0 should I use?

陌路散爱 提交于 2019-12-28 13:50:24
问题 Our stack is composed of Google Data Proc (Spark 2.0) and Google BigTable (HBase 1.2.0) and I am looking for a connector working with these versions. The Spark 2.0 and the new DataSet API support is not clear to me for the connectors I have found: spark-hbase : https://github.com/apache/hbase/tree/master/hbase-spark spark-hbase-connector : https://github.com/nerdammer/spark-hbase-connector hortonworks-spark/shc : https://github.com/hortonworks-spark/shc The project is written in Scala 2.11

Kylin 在一点资讯的实践

筅森魡賤 提交于 2019-12-28 10:14:34
在近期的 Apache Kylin Meetup 北京站上,我们邀请到了一点资讯的大数据平台高级工程师毛洪玥来分享 Kylin 在一点资讯的应用。本次分享由一点资讯 OLAP 发展历程和系统基础架构开始,以 Kylin 在一点资讯的业务需求和实践经验为依托,分享针对数据量较大的Cube如何提高查询响应速度,如何缩短构建时间,如何缓解 HBase 压力来提升稳定性,及使用过程中遇到的特殊数据问题与解决方案等。 发展历程 2016 年 9 月开始,一点资讯选择了综合性能优秀的 Druid 来承接大数据部门、算法部门和广告部门的多维分析查询需求。2017 年 9 月,接入刚刚开源的 Doris,承接明细查询和 SQL 分析业务。 至今年 5 月,随着业务增长和数据积累,冷数据占比增高,机器利用率降低。大部分数据月查询次数不超过 1 次,却需要长期存储,因而造成大量机器资源浪费。如何提高有限资源的利用率,支持维度高达 27 个,日志量达 1 T/天,查询周期长达 1 年的业务呢?经过一系列调研,一点资讯决定使用 Kylin 系统。Kylin 支持Hive、Kafka等形式的数据源,Cube存储及查询使用HBase,构建任务可以利用运行在Yarn上的MapReduce或Spark任务,这些都是一点资讯使用中的大数据组件,它们的存储计算均为PB级或以上级别,只需要再搭建轻量级 Kylin

分布式存储系统HBASE-API操作

时光总嘲笑我的痴心妄想 提交于 2019-12-28 02:27:47
上一篇介绍了HBase的基本概念,以及其在linux环境下的安装和交互,本文将继续介绍如何通过java和python来操作hbase。 在通过api操作hbase之前,首先要保证hadoop和hbase已经都启动了。 Java操作HBase 创建一个maven项目,添加基本的依赖: <properties> <hadoop.version>2.10.0</hadoop.version> <hbase.version>1.3.6</hbase.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>${hadoop.version}</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>${hadoop.version}</version> </dependency> <dependency> <groupId>org.apache.hbase</groupId>

Spark on YARN + Secured hbase

痴心易碎 提交于 2019-12-28 02:15:08
问题 I am submitting a job to YARN (on spark 2.1.1 + kafka 0.10.2.1) which connects to a secured hbase cluster. This job, performs just fine when i am running in "local" mode (spark.master=local[*]). However, as soon as I submit the job with master as YARN (and deploy mode as client), I see the following error message - Caused by: javax.security.auth.login.LoginException: Unable to obtain password from user I am following hortonworks recommendations for providing information to yarn cluster

HBase 安装(分布式)

让人想犯罪 __ 提交于 2019-12-26 23:56:01
安装前准备: hadoop已安装(参见我的hadoop安装) Namenode名:master DataNode名:slave01,slave02 本文包括两个部分: zookeeper安装 和 HBase安装 一、安装zookeeper 在安装好分布式hadoop的环境下,继续安装zookeeper-3.4.6。 下载zookeeper-3.4.6 http://www.apache.org/dyn/closer.cgi/zookeeper/ 解压文件 $ tar -zvxf zookeeper-3.4.6.tar.gz mv zookeeper-3.4.6 /usr/zookeeper-3.4.6 改zoo.cfg $ mv zookeeper-3.4.5/conf/zoo_sample.cfg zookeeper-3.4.5/conf/zoo.cfg 修改zookeeper配置文件: $ vi zookeeper-3.4.6/conf/zoo.cfg 做如下修改: tickTime=2000 dataDir=/usr/zookeeper //zookeeper文件的目录 clientPort=2181 initLimit=5 syncLimit=2 server.1=master:2888:3888 server.2=slave01:2888:3888 server.3

HBase集群的安装部署

感情迁移 提交于 2019-12-26 22:16:42
HBase的安装是是建立在hadoop和zookeeper集群之上的 安装的步骤跟伪分布式差不多,只是修改了一些配置文件 解压缩、重命名、设置环境变量 把hbase-0.94.2-security.tar.gz复制到/home/hadoop 解压hbase-0.94.2-security.tar.gz与重命名 #cd /home/hadoop #tar -zxvf hbase-0.94.2-security.tar.gz #mv hbase-0.94.2-security hbase 修改/etc/profile文件。 #vi /etc/profile 增加 export HBASE_HOME=/home/hadoop/hbase 修改 export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HBASE_HOME/bin 保存退出 #source /etc/profile 修改$HBASE_HOME/conf/hbase-env.sh,修改内容如下: export JAVA_HOME=/usr/java/jdk1.6.0_45 export HBASE_MANAGES_ZK=false 在伪分布式安装中 HBASE_MANAGES_ZK设置的是true,使用hbase自身的zookeeper

hbase总结(二)-hbase安装

故事扮演 提交于 2019-12-26 17:44:31
本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。 安装的前提条件是已经安装成功了hadoop,并且hadoop的版本号要和hbase的版本号相匹配。 我将要安装的hbase是hbase-0.94.11版本号,须要的hadoop是hadoop-1.2.1版本号。 hbase下载地址: http://mirror.bit.edu.cn/apache/hbase/hbase-0.94.11/ 将下载的hbase-0.94.11解压到对应的文件夹,如/usr/hbase-0.94.11 将hbase-0.90.4重命名为hbase mv hbase-0.94.11 hbase 首先须要将hbase下的bin文件夹加入到系统的path中,改动/etc/profile,加入例如以下的内容: export PATH=$PATH:/usr/hbase/bin 1.单机安装   改动hbase下的conf文件夹下的配置文件hbase-env.sh 首先,改动hbase-env.sh中的例如以下属性: export JAVA_HOME=/usr/java/jdk1.6 export HBASE_MANAGES_ZK=true //此配置信息,设置由hbase自己管理zookeeper,不须要单独的zookeeper。 2.伪分布式安装   改动hbase-0.90

HBase的安装

情到浓时终转凉″ 提交于 2019-12-26 17:44:07
HBase的安装 本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。 安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。 我将要安装的hbase是hbase-0.94.11版本,需要的hadoop是hadoop-1.2.1版本。 hbase下载地址: http://mirror.bit.edu.cn/apache/hbase/hbase-0.94.11/ 将下载的hbase-0.94.11解压到相应的目录,如/usr/hbase-0.94.11 将hbase-0.90.4重命名为hbase mv hbase-0.94.11 hbase 首先需要将hbase下的bin目录添加到系统的path中,修改/etc/profile,添加如下的内容: export PATH=$PATH:/usr/hbase/bin 1.单机安装   修改hbase下的conf目录下的配置文件hbase-env.sh 首先,修改hbase-env.sh中的如下属性: export JAVA_HOME=/usr/java/jdk1.6 export HBASE_MANAGES_ZK=true //此配置信息,设置由hbase自己管理zookeeper,不需要单独的zookeeper。 2.伪分布式安装   修改hbase-0.90

Hbase的安装与部署(集群版)

我怕爱的太早我们不能终老 提交于 2019-12-26 17:43:42
HBase 部署与使用 部署 Zookeeper 正常部署 $ ~/modules/zookeeper-3.4.5/bin/zkServer.sh start 首先保证 Zookeeper 集群的正常部署,并启动之: Hadoop 正常部署 $ ~/modules/hadoop-2.7.2/sbin/start-dfs.sh $ ~/modules/hadoop-2.7.2/sbin/start-yarn.sh Hadoop 集群的正常部署并启动之: HBase 的解压 $ tar -zxf ~/softwares/installations/hbase-1.3.1-bin.tar.gz -C ~/modules/ 解压 HBase 到指定目录: HBase 的配置文件 需要修改HBase 对应的配置文件。 hbase-env.sh 修改内容: export JAVA_HOME=/home/admin/modules/jdk1.8.0_121 export HBASE_MANAGES_ZK=false 需要修改hbase-site.xml hbase.rootdir hdfs://linux01:9000/hbase hbase.cluster.distributed true hbase.master.port 16000 hbase.zookeeper.quorum

HADOOP__HBASE集群安装(自带ZOOKEEPER)

折月煮酒 提交于 2019-12-26 17:42:58
HBASE的安装 前提: 已成功安装好Hadoop。Hadoop版本:0.20.2 以下现在一个节点做,配置好Hbase之后再拷贝到各个节点(每个节点都需要安装hbase)。 一、下载解压Hbase 链接地址: http://mirror.bjtu.edu.cn/apache/hbase/hbase-0.90.5/hbase-0.90.5.tar.gz 注意:此处存在版本匹配问题,自行查找匹配的版本。 解压: tar -zxvf hbase-0.90.5.tar.gz 拷贝到hadoop目录下中: cp -r hbase-0.90.5 /usr/hadoop/ 修改文件夹权限: chown -R hadoop:hadoop hbase-0.90.5 解决核心包的问题: (由于hbase基于Hadoop运行,但是目前存在不匹配的问题,需要将hadoop的核心包拷贝到hbase的lib目录下,解决兼容性问题) ① 将hbase内的文件hadoop核心包备份(hbase目录/lib/) mv hadoop-core-0.20-append-r1056497.jar hadoop-core-0.20-append-r1056497.jar.sav ②将hadoop目录中的核心拷贝到hbase目录/lib/下: cp /usr/hadoop/hadoop-0.20.2-core.jar