HBase性能优化 | 易学教程

一、HBase性能优化方案（一）：表的设计

a.Pre-Creating Regions：
    默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。
b.RowKey原则：
    HBase中row key用来检索表中的记录，支持以下三种方式：
    • 通过单个row key访问：即按照某个row key键值进行get操作；
    • 通过row key的range进行scan：即通过设置startRowKey和endRowKey，在这个范围内进行扫描；
    • 全表扫描：即直接扫描整张表中所有行记录。
    RowKey规则：
    1、越小越好
    2、 Rowkey的设计是要根据实际业务来
    3、散列性：
        a) 取反 001 002 100 200
        b) Hash
c.Column Family
    不要在一张表里定义太多的column family。目前Hbase并不能很好的处理超过2~3个column family的表。因为某个column family在flush的时候，它邻近的column family也会因关联效应被触发flush，最终导致系统产生更多的I/O。
d.In Memory
    创建表的时候，可以通过HColumnDescriptor.setInMemory(true)将表放到RegionServer的缓存中，保证在读取的时候被cache命中。
e.Max Version
    创建表的时候，可以通过HColumnDescriptor.setMaxVersions(int maxVersions)设置表中数据的最大版本，如果只需要保存最新版本的数据，那么设置setMaxVersions(1)。
f.Time To Live
    创建表的时候，可以通过HColumnDescriptor.setTimeToLive(int timeToLive)设置表中数据的存储生命期，过期数据将自动被删除。
g.Comact&Split
    1.关闭自动major compaction（大合并）
    2.手动编程major compaction

二、HBase性能优化方案（二）：写表操作

a.多HTable并发写（多线程）:创建多个HTable客户端用于写操作，提高写数据的吞吐量
b.设置HTable参数：
Auto Flush
    通过调用HTable.setAutoFlush(false)方法可以将HTable写客户端的自动flush关闭，这样可以批量写入数据到HBase，而不是有一条put就执行一次更新，只有当put填满客户端写缓存时，才实际向HBase服务端发起写请求。默认情况下auto flush是开启的。
Write Buffer
    通过调用HTable.setWriteBufferSize(writeBufferSize)方法可以设置HTable客户端的写buffer大小，如果新设置的buffer小于当前写buffer中的数据时，buffer将会被flush到服务端。其中，writeBufferSize的单位是byte字节数，可以根据实际写入数据量的多少来设置该值。
WAL Flag
    在HBae中，客户端向集群中的RegionServer提交数据时（Put/Delete操作），首先会先写WAL（Write Ahead Log）日志（即HLog，一个RegionServer上的所有Region共享一个HLog），只有当WAL日志写成功后，再接着写MemStore，然后客户端被通知提交数据成功；如果写WAL日志失败，客户端则被通知提交失败。这样做的好处是可以做到RegionServer宕机后的数据恢复。
因此，对于相对不太重要的数据，可以在Put/Delete操作时，通过调用Put.setWriteToWAL(false)或Delete.setWriteToWAL(false)函数，放弃写WAL日志，从而提高数据写入的性能。
值得注意的是：谨慎选择关闭WAL日志，因为这样的话，一旦RegionServer宕机，Put/Delete的数据将会无法根据WAL日志进行恢复。
c.批量写：
    通过调用HTable。put(List)方法可以将指定的rowkey列表批量写入多行记录，这样做的好处是批量执行，只需要一次网络I/O开销，这对于对数据实时性要求高，网络传输RTT高的情景下可能带来明显的性能提升。
d.多线程（Thread）并发（synchronized）写：
    在客户端开启多个HTable写线程，每个写线程负责一个HTable对象的flush操作，这样结
合定时flush和写buffer（writeBufferSize），可以既保证在数据量小的时候，数据可以在
较短时间内被flush（如1秒内），同时又保证在数据量大的时候，写buffer一满就及时进行
flush。

三、HBase性能优化方案（三）：读表操作

a.多HTable并发读
    创建多个HTable客户端用于读操作，提高读数据的吞吐量。
b.HTable参数设置：
Scanner Caching
    hbase.client.scanner.caching配置项可以设置HBase scanner一次从服务端抓取的数据条数，默认情况下一次一条。通过将其设置成一个合理的值，可以减少scan过程中next()的时间开销，代价是scanner需要通过客户端的内存来维持这些被cache的行记录。
有三个地方可以进行配置：1）在HBase的conf配置文件中进行配置；2）通过调用HTable.setScannerCaching(int scannerCaching)进行配置；3）通过调用Scan.setCaching(int caching)进行配置。三者的优先级越来越高。
Scan Attribute Selection
    scan时指定需要的Column Family，可以减少网络传输数据量，否则默认scan操作会返回整行所有Column Family的数据。
Close ResultScanner
    通过scan取完数据后，记得要关闭ResultScanner，否则RegionServer可能会出现问题（对应的Server资源无法释放）。
c.批量读
    通过调用HTable.get(List)方法，可以根据一个指定的rowkey列表，批量获取多行记录，这样做的好处是批量执行，只需要一次网络I/O开销，这对于对数据实时性要求高，网络传输RTT高的情景下可能带来明显的性能提升。
d.多线程并发读：
    在客户端开启多个HTable读线程，每个读线程负责通过HTable对象进行get操作。
e.缓存查询结果：
    对于频繁查询HBase的应用场景，可以考虑在应用程序中做缓存，当有新的查询请求时，首先在缓存中查找，如果存在则直接返回，不再查询HBase；否则对HBase发起读请求查询，然后在应用程序中将查询结果缓存起来。至于缓存的替换策略，可以考虑LRU等常用的策略。
f.Blockcache
    写请求先写入Memstor，Regionserver会给每个region提供一个Memstore，当Memstore写满64MB以后，会启动flush刷新磁盘，当Memstore大小超过一定限制后会强行启动flush进程，从最大的Memstore开始flush直到低于限制。
    读请求先到Memstore中查找数据，查不到就到BlockCache中查，再查不到就会到磁盘上读，并把读的结果放入Blockcache中。由于BlockCache采用的是LRU策略，因此BolckCache达到上限后，会启动淘汰机制，淘汰最老的一批数据。

来源：CSDN

作者：你就是医我的药

链接：https://blog.csdn.net/weixin_44909266/article/details/103915535

标签

hbase

性能优化