腾讯云大数据套件Hermes-MR索引插件使用总结
版权声明:本文由王亮原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/121 来源:腾云阁 https://www.qcloud.com/community Hermes是多维分析利器,使用步骤分为索引创建和数据分发两个步骤。 Hermes目前尚未集成到TBDS套件(3.0版本)中且外部有客户需要在自己部署的集群上使用Hermes组件,这里就遇到了Hermes与外部Hadoop集群的适配问题。 Hermes与某客户外部集群集成后,一次压测时(2T数据量,445604010行,477字段全索引)使用单机版的Hermes索引创建插件由于数据量过大,出现 Out of Memory 等异常现象导致索引插件程序崩溃,实际产生的数据索引量和实际数据量差距很大。基于以上考虑,数平提供了基于MR的索引创建插件,提升索引创建效率。 以下记录了基于hadoop2.2版本的MR索引插件和外部集群的适配过程。 一.集群相关组件版本 Hermes版本:hermes-2.1.0-1.x86_64 Hadoop集群版本:Hadoop 2.7.1.2.3.0.0-2557 Hermes-index-MR插件使用的Hadoop-common:hadoop-common-2.2.0.jar 二.Hermes-MR插件使用方法 1.需修改配置