solr

Configuring shardsWhitelist in Solr 6.6

故事扮演 提交于 2021-02-19 04:23:18
问题 Need help to configure shardsWhitelist in Solr 6.6. I have the below line in Solr.xml <str name="shardsWhitelist">${solr.shardsWhitelist:}</str> And I added the following in solrconfig.xml <requestHandler name="/select" class="solr.SearchHandler"> <shardHandler class="HttpShardHandlerFactory"> <int name="socketTimeOut">1000</int> <int name="connTimeOut">5000</int> <str name="shardsWhitelist">https://<URL1>/solr/core0,<URL2>/solr/core0,<URL3>/solr/core0</str> </shardHandler> But, I can’t get

基于Cloudera Search设计数据灾备方案

亡梦爱人 提交于 2021-02-18 21:32:29
  当实际项目上线到生产环境中,难以避免一些意外情况,如数据丢失、服务器停机等。对于系统的搜索服务来说,当遇到停机的情况意味着在停机这段时间内,用户都不能通过搜索的相关功能进行访问数据,停机意味着将这一段时间内的数据服务完全停止。如果项目是互联网项目依赖于用户数量,这将严重影响用户访问和用户的产品体验。   针对于这种实际情况,在实际的项目开发维护过程中,如果系统使用的大数据平台是Cloudera公司是CDH,可以考虑使用Cloudera Search来进行数据的增量备份和数据恢复工作。Cloudera Search是Cloudera公司基于Apache的开源项目Solr发布的一个搜索服务,安装非常简单,通过Cloudera Manager的管理页面就可以进行一键式安装,本文将对使用Cloudera Search进行各个应用场景做灾备的方案一一介绍。 1.HDFS - HDFS   一般情况下,一个大数据项目中所有用到的原始数据都会存储HDFS中(Hive和HBase存储也是基于HDFS存储数据)。对HDFS做灾备和数据恢复最直接的方式是在源HDFS集群和备份HDFS集群之间设置数据定期增量更新,例如时间Cloudera BDR工具,基础数据备份之后可以选择使用MapReduce Indexer或者Spark

Solr query syntax for array field

允我心安 提交于 2021-02-18 20:45:55
问题 How do I search within an array field? I am using solr 4.2 with default settings. I indexed a few html and pdf documents using SolrNet. Here is a sample result for such a document when I search using the admin search *:* enter code here <doc> <str name="id">2</str> <date name="last_modified">2011-12-19T17:33:25Z</date> <str name="author">name</str> <str name="author_s">name</str> <arr name="title"> <str>CALIFORNIA CODES</str> </arr> <arr name="content_type"> <str>application/pdf</str> </arr>

用solr的facet实现聚合标签

混江龙づ霸主 提交于 2021-02-18 04:10:15
Facet,单词意思是侧面,小平面。哈哈,怎么学英文单词了…… 好吧,言归正题,solr的Facet是一个什么东西呢?我个人理解,反映一个搜索词的小平面(或者说某一个分组),起到标签聚合统计的功能。举个列子说,像我们公司的 电商类网站 那样的对搜索结果聚合分类,品牌等属性。如下图 这个是搜索铁观音这个词,统计了 分类和品牌 2个侧面(分组),铁观音在生活分类下有64个,茗茶里面48…… 上面这个说到底,就是某一类型的标签统计,比如xxx年热词等等,只要有记录,也能统计出来,当然,超大数据量提前优化好solr的性能。 介绍了一下facet之后,来说说怎么实现facet。facet的实现其实很简单,主要在搜索参数上带上就OK。 facet=on/true #代表开启facet facet.field=cate #代表要统计的面(分组),比如上面的分类,品牌,可以多次出现 facet.limit =20 #每个分组最多返回条数 facet.mincount = 1 #这个表示分组下某一条目的最小数据量 facet.missing = on/true #统计null的值 facet.method = # 默认为fc, fc表示Field Cache 比如:http://localhost/product/select/?q=铁观音&facet=on&facet.field=category

HBase数据同步到ElasticSearch的方案

☆樱花仙子☆ 提交于 2021-02-18 02:18:19
<div id="article_content" class="article_content"> <p><br> </p> <h3>ElasticSearch的River机制</h3> <p>ElasticSearch自身提供了一个River机制,用于同步数据。</p> <p>这里能够找到官方眼下推荐的River:</p> <p><a target="_blank" href="http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/">http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/</a><br> </p> <p>可是官方没有提供HBase的River。</p> <p>事实上ES的River很easy,就是一个用户打包好的jar包,ES负责找到一个node,并启动这个River。假设node失效了。会自己主动找另外一个node来启动这个River。</p><p></p> <p></p> <pre code_snippet_id="520284" snippet_file_name="blog_20141115_1_5215483" name="code" class="java">public interface

Atlas 2.1.0 实践(2)—— 安装Atlas

折月煮酒 提交于 2021-02-18 00:59:53
在完成Atlas编译以后,就可以进行Atlas的安装了。Atlas的安装主要是安装Atlas的Server端,也就Atlas的管理页面,并确保Atlas与Kafka Hbase Solr等组件的集成。 Atlas的系统架构如下,在确保 底层存储与UI界面正常后,之后就可以进行与Hive等组件的集成调试了。 一、环境准备 安装之前 先要准备好 JDK1.8 Zookeeper Kafka Hbase Solr 在启动Atlas时会配置这些环境变量的地址,所以一定要确保以上组件正常运行。 由于在编译时可以选择内部集成,所以这些Atlas是可以自带的,但是JDK一定要安装好。 在安装Altas中,需要Solr 预先创建好collection bin/solr create -c vertex_index -shards 3 -replicationFactor 2 bin/solr create -c edge_index -shards 3 -replicationFactor 2 bin/solr create -c fulltext_index -shards 3 -replicationFactor 2 在solr中验证创建成功。 二、安装Atlas 到编译好的包的路径下 apache-atlas-sources-2.1.0/distro/target 将生成好的安装包

Solr简述及倒排索引介绍

我是研究僧i 提交于 2021-02-16 07:41:40
一、Solr简述 1、Solr是什么? Solr是一个Java开发的基于Lucene的开源搜索平台,其搜索技术核心是使用倒排索引,即通过关键字映射到对应的文档(value--key),与一般搜索用到的key--value不同。 Solr内的资源存储是以文档Document为对象进行存储,文档的内容是由多个表示资源属性的Field构成的。Solr是将文档中的Field经过分词后作为索引,用二分法将关键字与排序号的索引进行匹配,进而查找到对应文档,提供高性能的搜索效率。每个文档都通过唯一的id字段来表示该文档。 2、为什么使用Solr? 由于传统电商多数使用传统搜索,即 传统搜索是从静态数据库中筛选出符合条件的结果,这种结果往往是不可变得、静态的。而通常电商系统中需要提供搜索功能,通过任意关键字搜索出匹配的结果。而 这些 任意 的数据不可能是根据数据库的字段查询的,所以需要利用全文搜索工具提前对数据进行分词,然后通过分词的结果,根据分词搜索到对应的文档,向用户反馈搜索结果。而Solr就能通过倒排索引功能,技术,结合IKanalyzer中文分词器实现这样的搜索功能。 3、Solr、elasticsearch与Lucene三者联系与区别 (1)三者介绍 Lucene是一套信息检索工具包,并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能

Solr基础理论【倒排索引,模糊查询】

北战南征 提交于 2021-02-16 06:51:23
一.简介   现有的许多不同类型 的技术系统,如关系型数据库、键值存储、操作磁盘文件的map-reduce【映射-规约】引擎、图数据库等,都是为了帮助用户解决颇具挑战性的数据存储与检索问题而设计的。而搜索引擎,尤其是Solr,致力于解决一类特定的问题:搜索大量非结构化的文本数据,并返回最相关的搜索结果。 二.文档   Solr是一个文档存储与检索引擎。提交给solr处理的每一份数据都是一个文档。文档可以是一篇新闻报道、一份简历、社交用户信息,甚至是一本书。   每个文档包含一个或多个字段,每个字段被赋予具体的字段类型:字符串、标记化文本、布尔值、日期/时间、经纬度等。潜在的字段类型数量是无限的,因为一个字段类型是有若干个分析步骤组成的,这些步骤会决定数据如何在字段中被处理,以及如何映射到Solr索引中。每个字段在solr的schema文件中被指定特定的字段类型,并告知solr接收到此类内容的处理办法。   如下:        要在solr上执行一个查询,可以在文档上搜索一个或多个字段,即使字段未包含在该文档中。solr将返回哪些包含了与查询匹配的字段内容的文档。值得注意的是,虽然solr为每个文档提供了一个灵活的schema文件,但灵活并不代表无模式。在solr的schema文件中,所有的字段必须被定义,所有的字段名称【包括动态字段命名模式】必须被指定类型

SOLR and Natural Language Parsing - Can I use it?

大兔子大兔子 提交于 2021-02-15 08:18:53
问题 Requirements Word frequency algorithm for natural language processing Using Solr While the answer for that question is excellent, I was wondering if I could make use of all the time I spent getting to know SOLR for my NLP. I thought of SOLR because: It's got a bunch of tokenizers and performs a lot of NLP. It's pretty use to use out of the box. It's restful distributed app, so it's easy to hook up I've spent some time with it, so using could save me time. Can I use Solr? Although the above

SOLR and Natural Language Parsing - Can I use it?

若如初见. 提交于 2021-02-15 08:16:45
问题 Requirements Word frequency algorithm for natural language processing Using Solr While the answer for that question is excellent, I was wondering if I could make use of all the time I spent getting to know SOLR for my NLP. I thought of SOLR because: It's got a bunch of tokenizers and performs a lot of NLP. It's pretty use to use out of the box. It's restful distributed app, so it's easy to hook up I've spent some time with it, so using could save me time. Can I use Solr? Although the above