hbase | 易学教程

windows配置hbase异常winutils.exe

阅读更多关于 windows配置hbase异常winutils.exe

配置好hbase依赖，填写完集群，正要开开心心地scan一下表实验下: java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 一个更开心的exception就这么毫无防备地抛出了：找不到hadoop的二进制文件winutils.exe。百度了好久，有让配置系统环境变量的，有安装hadoop的什么的。。。查了一圈找到了原因。 1.读取hbase数据你首先需要一个client，jar包里不集成windows环境client的。 2.你需要一个可以运行的client——windows环境下就是exe(hbase默认是安装在linux下的)。 3. hbase是完全依赖hadoop的， hadoop为了满足windows用户提供了启动环境，在hadoopX.X/bin/下边的winutils.exe。 4.悲伤的是，从hadoop2.2开始，此文件莫名其妙地不打包了！任性！ 5.此路径的引用是用HADOOP_HOME变量或者是hadoop.home.dir配置都可以读取的 6.不需要完整安装hadoop2.2，只需要winutils.exe，并指定位置就好 7. System.setProperty("hadoop.home.dir", "X:

当hive和hbase整合之后，执行hql，提示找不到类。

阅读更多关于当hive和hbase整合之后，执行hql，提示找不到类。

当hive和hbase整合之后，执行hive ql 启动运行task时，提示java.lang.ClassNotFoundException，首先考虑下面这种情况：在hive-site.xml中的hive.aux.jars.path属性配置是否完整，首先最少的有zookeeper，hbase，hive-hbase-handler这三个包。然后查找提示不存在的class，看看不存在的class在哪个包，然后配置进去。例如有一次提示： java.lang.ClassNotFoundException: org.antlr.runtime.CommonToken 经查找这个类是在antlr-runtime-3.4.jar包里面，所以把antlr-runtime-3.4.jar包也配进hive.aux.jars.path中，如下： <property> <name>hive.aux.jars.path</name> <value>file:///home/cdh/apps/hive-0.10.0-cdh4.7.0/lib/hive-hbase-handler-0.10.0-cdh4.7.0.jar,file:///home/cdh/apps/hive-0.10.0-cdh4.7.0/lib/hbase-0.94.15-cdh4.7.0.jar,file:///home/cdh/apps

hive引入jar包--HIVE.AUX.JARS.PATH和hive.aux.jars.path

阅读更多关于 hive引入jar包--HIVE.AUX.JARS.PATH和hive.aux.jars.path

hive需要引入包时？该怎么引入？注意如果你的hive服务的和cli端是在同一台机器上，那么直接在 hive-env.sh中的HIVE.AUX.JARS.PATH设置指向hive/lib下即可，把需要的包加到lib下，和配置 hive-site.xml中的hive.aux.jars.path的效果是一样的。一、hive-site.xml中的hive.aux.jars.path 此配置项对于hive server有效，但是是不会作用到hive shell.也就是说即使你在hive节点上配置了这一项，但是对于hive shell来说是无效的（为什么会这样？难道不是服务器配置了，所有的hive shell都能生效吗？搞不懂）。但是在hive-site.xml的模板文件中找不到hive.aux.jars.path的配置，是不是hive正慢慢改变用户放弃配置此属性呢？注意：1，目前只支持file://也就是本地文件，暂不支持HDFS，也不支持文件夹。2，多个文件使用逗号分隔。3，不能换行。有类似hbase-0.94.15-cdh4.7.0.jar包时，可以使用如下配置： <property> <name>hive.aux.jars.path</name> <value>file:///home/cdh/apps/hive-0.10.0-cdh4.7.0/lib/hive-hbase

nutch2.3抓取的网页使用solr建立索引

阅读更多关于 nutch2.3抓取的网页使用solr建立索引

1，安装solr 2，将NUTCH_HOME/runtime/local/conf/schema-solr4.xml复制到SOLR_HOME/excample/solr/collection1/conf/下，并改名为schema.xml，在文件中添加 <field name="_version_" type="long" indexed="true" stored="true"/> 3,启动hbase 如果是hbase 0.94.*的版本需要修改host 官方是这么说的： The following /etc/hosts file works correctly for HBase 0.94.x and earlier, on Ubuntu. Use this as a template if you run into trouble. 127.0.0.1 localhost 127.0.0.1 ubuntu.ubuntu-domain ubuntu 关键是下面这条命令，就会在solr中建立索引 bin/nutch solrindex http://127.0.0.1:8983/solr/ -reindex -crawlId 6vhao 来源： oschina 链接： https://my.oschina.net/u/2494265/blog/524238

HBase Filter介绍及执行流程

阅读更多关于 HBase Filter介绍及执行流程

HBASE过滤器介绍：所有的过滤器都在服务端生效，叫做谓语下推(predicate push down),这样可以保证被过滤掉的数据不会被传送到客户端。注意：基于字符串的比较器，如RegexStringComparator和SubstringComparator，比基于字节的比较器更慢，更消耗资源。因为每次比较时它们都需要将给定的值转化为String.截取字符串子串和正则式的处理也需要花费额外的时间。过滤器本来的目的是为了筛掉无用的信息，所有基于CompareFilter的过滤处理过程是返回匹配的值。 Interface for row and column filters directly applied within the regionserver. A filter can expect the following call sequence: reset() : reset the filter state before filtering a new row. filterAllRemaining() : true means row scan is over; false means keep going. filterRowKey(byte[],int,int) : true means drop this row; false means include.

Lucene与HBase的组合使用及HBasene的分析报告

阅读更多关于 Lucene与HBase的组合使用及HBasene的分析报告

Lucene简介　　Lucene中，以document的形式作为搜索的主体。document由fieldName和fieldValue所组成，每个fieldValue又可以由一个或多个term元素来组成。基于不同的分词及索引规则，可用于搜索fieldValue的term少于组成fieldValue的term。Lucene的搜索基于反向索引，包含着可用于搜索document的field信息。通过Lucene，可以正向查找document，以便了解其包含哪些field信息；也可以通过反向索引，通过搜索字段的term，来查询包含该term的document。 [ 图1 ] Lucene总体架构　　由图1所示，IndexSearcher实现了搜索的逻辑，IndexWriter实现了文档的插入与反向索引的建立，IndexReader由IndexSearcher调用以便读取索引的内容。IndexReader和IndexWriter都依赖于抽象类Directory，Directory提供操作索引数据及的API。　　标准的Lucene是基于文件系统和基于内存的。　　标准基于文件系统的后端的缺点在于，随着索引增加性能会下降，人们使用了各种不同的技术来解决这个问题，包括负载均衡和索引分片（index sharding，在多个Lucene实例之间切分索引）。尽管分片功能很强大

HBase介绍和工作原理

阅读更多关于 HBase介绍和工作原理

Hbase简介 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库） HBase数据模型命名空间命名空间是对表的逻辑分组，不同的命名空间类似于关系型数据库中的不同的Database数据库。利用命名空间，在多租户场景下可做到更好的资源和数据隔离。表对应于关系型数据库中的一张张表，HBase以“表”为单位组织数据，表由多行组成。行表的主键，按照字典序排序。列族每一行由若干列族组成，每个列族下可包含多个列。物理上，同一列族的数据存储在一起。列限定符列由列族和列限定符唯一指定，像如上的name、age即是列族的列限定符。单元格单元格由RowKey、列族、列限定符唯一定位，单元格之中存放一个值（Value）和一个版本号。时间戳单元格内不同版本的值按时间倒序排列，最新的数据排在最前面 hbase 的架构 Client 是客户端，要求读写数据的发起者。 ZK 集群是负责转发 Client 的请求和提供心跳机制，会让 HRegion Server 和 HRegion 注册进来，同时保存着

大数据04 HBASE

阅读更多关于大数据04 HBASE

HBase 运行机制 Shell 命令操作 HBASE（举例） create 'templagetable' , 'f1', 'f2', 'f3' list 显示 shell 等价 shell 也是等价的来源： https://www.cnblogs.com/moveofgod/p/12382324.html

大神齐聚HBase2.0 Meetup，你期待点啥？

阅读更多关于大神齐聚HBase2.0 Meetup，你期待点啥？

播报：北京时间2018年6月6日，由HBase技术社区组织，阿里云主办的中国HBase技术社区第一次Meetup将在北京举行，来自阿里、小米、滴滴、360等公司的各位大神会共同探讨HBase2.0的技术革新，HBase在国内各个大型企业内的应用价值，并一起见证HBase技术社区成立仪式的历史时刻。此次meetup邀请到了国内hbase圈子的众多大牛，对于关注这个领域的同学是非常好的认识建交机会，同时你将得悉关于2018 Apache HBase亚洲大会的最新消息。盘点一下会议有哪些期待的主题：会议内容主题1:云数据库HBase2.0产品发布所在阿里云HBase高级产品专家 6月6日 14:00-14:30 主题2:HBase2.0研讨圆桌会 HBase Committers&各公司HBase负责人 6月6日 14:30-15:00 主题2: 中国HBase技术社区成立及招募仪式阿里云、滴滴、小米等社区发起者 6月6日 15:00-15:10 主题3: HBase 3.0的发展规划张铎，HBase PMC，小米HBase负责人 6月6日 15:10-15:40 主题4: 滴滴HBase应用与实践姚靖怡，滴滴HBase负责人 6月6日 15:40-16:10 主题5: 当HBase遇上云的思考曹龙，阿里云HBase负责人 6月6日 16:10-17:00 定睛一看

HBase底层原理

阅读更多关于 HBase底层原理

HBase底层原理 1、系统架构 Client 1 包含访问hbase的接口，client维护着一些cache来加快对hbase的访问，比如regione的位置信息。 Zookeeper 1 保证任何时候，集群中只有一个master 2 存贮所有Region的寻址入口 3 实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master 4 存储Hbase的schema,包括有哪些table，每个table有哪些column family Master职责 1 为Region server分配region 2 负责region server的负载均衡 3 发现失效的region server并重新分配其上的region 4 HDFS上的垃圾文件回收 5 处理schema更新请求 Region Server职责 1 Region server维护Master分配给它的region，处理对这些region的IO请求 2 Region server负责切分在运行过程中变得过大的region 2、表数据结构 Row Key 与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式： 1 通过单个row key访问 2 通过row key的range 3 全表扫描 Row key行键 (Row

订阅 hbase