hbase

windows配置hbase异常winutils.exe

烈酒焚心 提交于 2020-03-02 04:49:06
配置好hbase依赖,填写完集群,正要开开心心地scan一下表实验下: java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 一个更开心的exception就这么毫无防备地抛出了: 找不到hadoop的二进制文件winutils.exe。 百度了好久,有让配置系统环境变量的,有安装hadoop的什么的。。。查了一圈找到了原因。 1.读取hbase数据你首先需要一个client,jar包里不集成windows环境client的。 2.你需要一个可以运行的client——windows环境下就是exe(hbase默认是安装在linux下的)。 3. hbase是完全依赖hadoop的, hadoop为了满足windows用户提供了启动环境,在hadoopX.X/bin/下边的winutils.exe。 4.悲伤的是, 从hadoop2.2开始,此文件莫名其妙地不打包了 !任性! 5.此路径的引用是用HADOOP_HOME变量或者是hadoop.home.dir配置都可以读取的 6.不需要完整安装hadoop2.2,只需要winutils.exe,并指定位置就好 7. System.setProperty("hadoop.home.dir", "X:

当hive和hbase整合之后,执行hql,提示找不到类。

北慕城南 提交于 2020-03-01 15:25:31
当hive和hbase整合之后,执行hive ql 启动运行task时,提示java.lang.ClassNotFoundException,首先考虑下面这种情况: 在hive-site.xml中的hive.aux.jars.path属性配置是否完整,首先最少的有zookeeper,hbase,hive-hbase-handler这三个包。 然后查找提示不存在的class,看看不存在的class在哪个包,然后配置进去。例如有一次提示: java.lang.ClassNotFoundException: org.antlr.runtime.CommonToken 经查找这个类是在antlr-runtime-3.4.jar包里面,所以把antlr-runtime-3.4.jar包也配进hive.aux.jars.path中,如下: <property> <name>hive.aux.jars.path</name> <value>file:///home/cdh/apps/hive-0.10.0-cdh4.7.0/lib/hive-hbase-handler-0.10.0-cdh4.7.0.jar,file:///home/cdh/apps/hive-0.10.0-cdh4.7.0/lib/hbase-0.94.15-cdh4.7.0.jar,file:///home/cdh/apps

hive引入jar包--HIVE.AUX.JARS.PATH和hive.aux.jars.path

不打扰是莪最后的温柔 提交于 2020-03-01 14:40:54
hive需要引入包时?该怎么引入? 注意如果你的hive服务的和cli端是在同一台机器上,那么直接在 hive-env.sh中的HIVE.AUX.JARS.PATH设置指向hive/lib下即可,把需要的包加到lib下,和配置 hive-site.xml中的hive.aux.jars.path的效果是一样的。 一、hive-site.xml中的hive.aux.jars.path 此配置项对于hive server有效,但是是不会作用到hive shell.也就是说即使你在hive节点上配置了这一项,但是对于hive shell来说是无效的(为什么会这样?难道不是服务器配置了,所有的hive shell都能生效吗?搞不懂)。但是在hive-site.xml的模板文件中找不到hive.aux.jars.path的配置,是不是hive正慢慢改变用户放弃配置此属性呢? 注意:1,目前只支持file://也就是本地文件,暂不支持HDFS,也不支持文件夹。2,多个文件使用逗号分隔。3,不能换行。 有类似hbase-0.94.15-cdh4.7.0.jar包时,可以使用如下配置: <property> <name>hive.aux.jars.path</name> <value>file:///home/cdh/apps/hive-0.10.0-cdh4.7.0/lib/hive-hbase

nutch2.3抓取的网页使用solr建立索引

删除回忆录丶 提交于 2020-03-01 04:01:47
1,安装solr 2,将NUTCH_HOME/runtime/local/conf/schema-solr4.xml复制到SOLR_HOME/excample/solr/collection1/conf/下,并改名为schema.xml,在文件中添加 <field name="_version_" type="long" indexed="true" stored="true"/> 3,启动hbase 如果是hbase 0.94.*的版本需要修改host 官方是这么说的: The following /etc/hosts file works correctly for HBase 0.94.x and earlier, on Ubuntu. Use this as a template if you run into trouble. 127.0.0.1 localhost 127.0.0.1 ubuntu.ubuntu-domain ubuntu 关键是下面这条命令,就会在solr中建立索引 bin/nutch solrindex http://127.0.0.1:8983/solr/ -reindex -crawlId 6vhao 来源: oschina 链接: https://my.oschina.net/u/2494265/blog/524238

HBase Filter介绍及执行流程

懵懂的女人 提交于 2020-03-01 03:16:19
HBASE过滤器介绍: 所有的过滤器都在服务端生效,叫做谓语下推(predicate push down),这样可以保证被过滤掉的数据不会被传送到客户端。 注意: 基于字符串的比较器,如RegexStringComparator和SubstringComparator,比基于字节的比较器更慢,更消耗资源。因为每次比较时它们都需要将给定的值转化为String.截取字符串子串和正则式的处理也需要花费额外的时间。 过滤器本来的目的是为了筛掉无用的信息,所有基于CompareFilter的过滤处理过程是返回匹配的值。 Interface for row and column filters directly applied within the regionserver. A filter can expect the following call sequence: reset() : reset the filter state before filtering a new row. filterAllRemaining() : true means row scan is over; false means keep going. filterRowKey(byte[],int,int) : true means drop this row; false means include.

Lucene与HBase的组合使用及HBasene的分析报告

孤街浪徒 提交于 2020-03-01 03:14:16
Lucene简介   Lucene中,以document的形式作为搜索的主体。document由fieldName和fieldValue所组成,每个fieldValue又可以由一个或多个term元素来组成。基于不同的分词及索引规则,可用于搜索fieldValue的term少于组成fieldValue的term。Lucene的搜索基于反向索引,包含着可用于搜索document的field信息。通过Lucene,可以正向查找document,以便了解其包含哪些field信息;也可以通过反向索引,通过搜索字段的term,来查询包含该term的document。 [ 图1 ] Lucene总体架构   由图1所示,IndexSearcher实现了搜索的逻辑,IndexWriter实现了文档的插入与反向索引的建立,IndexReader由IndexSearcher调用以便读取索引的内容。IndexReader和IndexWriter都依赖于抽象类Directory,Directory提供操作索引数据及的API。   标准的Lucene是基于文件系统和基于内存的。   标准基于文件系统的后端的缺点在于,随着索引增加性能会下降,人们使用了各种不同的技术来解决这个问题,包括负载均衡和索引分片(index sharding,在多个Lucene实例之间切分索引)。尽管分片功能很强大

HBase介绍和工作原理

∥☆過路亽.° 提交于 2020-02-29 22:19:04
Hbase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式协同服务 主要用来存储非结构化和半结构化的松散数据(列存NoSQL数据库) HBase数据模型 命名空间 命名空间是对表的逻辑分组,不同的命名空间类似于关系型数据库中的不同的Database数据库。利用命名空间,在多租户场景下可做到更好的资源和数据隔离。 表 对应于关系型数据库中的一张张表,HBase以“表”为单位组织数据,表由多行组成。 行 表的主键,按照字典序排序。 列族 每一行由若干列族组成,每个列族下可包含多个列。物理上,同一列族的数据存储在一起。 列限定符 列由列族和列限定符唯一指定,像如上的name、age即是列族的列限定符。 单元格 单元格由RowKey、列族、列限定符唯一定位,单元格之中存放一个值(Value)和一个版本号。 时间戳 单元格内不同版本的值按时间倒序排列,最新的数据排在最前面 hbase 的架构 Client 是客户端,要求读写数据的发起者。 ZK 集群 是负责转发 Client 的请求和提供心跳机制,会让 HRegion Server 和 HRegion 注册进来, 同时保存着

大数据04 HBASE

穿精又带淫゛_ 提交于 2020-02-29 14:12:10
HBase 运行机制 Shell 命令操作 HBASE(举例) create 'templagetable' , 'f1', 'f2', 'f3' list 显示 shell 等价 shell 也是等价的 来源: https://www.cnblogs.com/moveofgod/p/12382324.html

大神齐聚HBase2.0 Meetup,你期待点啥?

天涯浪子 提交于 2020-02-28 19:41:34
播报: 北京时间2018年6月6日,由HBase技术社区组织,阿里云主办的中国HBase技术社区第一次Meetup将在北京举行,来自阿里、小米、滴滴、360等公司的各位大神会共同探讨HBase2.0的技术革新,HBase在国内各个大型企业内的应用价值,并一起见证HBase技术社区成立仪式的历史时刻。 此次meetup邀请到了国内hbase圈子的众多大牛,对于关注这个领域的同学是非常好的认识建交机会,同时你将得悉关于2018 Apache HBase亚洲大会的最新消息。 盘点一下会议有哪些期待的主题: 会议内容 主题1:云数据库HBase2.0产品发布 所在 阿里云HBase高级产品专家 6月6日 14:00-14:30 主题2:HBase2.0研讨圆桌会 HBase Committers&各公司HBase负责人 6月6日 14:30-15:00 主题2: 中国HBase技术社区成立及招募仪式 阿里云、滴滴、小米等社区发起者 6月6日 15:00-15:10 主题3: HBase 3.0的发展规划 张铎,HBase PMC,小米HBase负责人 6月6日 15:10-15:40 主题4: 滴滴HBase应用与实践 姚靖怡,滴滴HBase负责人 6月6日 15:40-16:10 主题5: 当HBase遇上云的思考 曹龙,阿里云HBase负责人 6月6日 16:10-17:00 定睛一看

HBase底层原理

十年热恋 提交于 2020-02-28 18:46:28
HBase底层原理 1、系统架构 Client 1 包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息。 Zookeeper 1 保证任何时候,集群中只有一个master 2 存贮所有Region的寻址入口 3 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master 4 存储Hbase的schema,包括有哪些table,每个table有哪些column family Master职责 1 为Region server分配region 2 负责region server的负载均衡 3 发现失效的region server并重新分配其上的region 4 HDFS上的垃圾文件回收 5 处理schema更新请求 Region Server职责 1 Region server维护Master分配给它的region,处理对这些region的IO请求 2 Region server负责切分在运行过程中变得过大的region 2、表数据结构 Row Key 与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行,只有三种方式: 1 通过单个row key访问 2 通过row key的range 3 全表扫描 Row key行键 (Row