ikanalyzer

【Solr】solr-4.10.3配置业务域

寵の児 提交于 2020-12-08 01:59:18
前言 要想把数据放入solr中,首先要有对应的域,域是先定义后使用的。 配置中文分析器 (1)下载IK Analyzer 2012FF_hf1中文分析器。 下载地址 (2)进入到IK Analyzer 2012FF_hf1目录,将IKAnalyzer2012FF_u1.jar复制到/tomcat/webapps/solr-4.10.3/WEB-INF/lib/下,将ext_stopword.dic、IKAnalyzer.cfg.xml、mydict.dic复制到/tomcat/webapps/solr-4.10.3/WEB-INF/classes/目录下。 配置/solrhome/collection1/conf/schema.xml (1)配置filed-type来指定数据类型使用该中文分析器进行分词。 (2)设置业务域。id域默认使用数据id,并配置业务域的分析器使用配置好的中文分析器。 总结 solr业务域配置完成,可以实现数据的导入并查询了。 来源: oschina 链接: https://my.oschina.net/u/4364052/blog/4779092

solr的安装(windows)和使用

…衆ロ難τιáo~ 提交于 2020-10-30 07:47:32
介绍 Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置,某些情况下可能需要进行编码, Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用Solr 创建的索引。 总结一下:solr是一个java搜索引擎服务器(是一套war程序),内部集成了Lucene(apache提供的一些对搜索引擎做支持的jar包)。 Solr服务搭建 官网下载solr4.9.1的程序安装包。 下载地址: http://archive.apache.org/dist/lucene/solr/ 解压solr的zip包 将dist\solr-4.9.1.war文件复制到tomcat的webapps目录下,并将文件命名为solr.war 复制solr解压包下example\lib\ext 下所有的jar 到tomcat

solr在windows下的安装及配置

时光毁灭记忆、已成空白 提交于 2020-10-12 23:56:37
最近接触搜索相关的内容,所以熟悉下solr的使用以及如何在java中使用solr实现搜索功能。 1、solr简介 Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。 2、倒排索引 有的人会疑惑,搜索通过数据库也能直接查到为什么还要solr这类搜索引擎。例如我现在要搜索"solr"相关的内容,通过数据库模糊匹配%solr%可以查到,数量少的话查询速度还挺可观,如果数据量到达百万级千万级甚至更多,可能查出来得猴年马月了。 而solr用的倒排索引可以解决这一问题。 什么是倒排索引,先说下正排索引。 假如我有部分数据 文档id 文档内容 1 solr的使用以及如何在java中使用solr实现搜索功能 2 solr是一个独立的企业级搜索应用服务器 3 倒排索引和正排索引 4 搜索引擎 假如我要搜索solr,通过正排索引就是文档id作为索引,找到内容包含solr的文档。文档数量多了之后极大增加的搜索时间。 而倒排索引是将文档内容分词后建立索引。 单词内容 文档id solr 1,2 java 1 搜索 1,2,4 索引 3 服务器 2 此时我要搜索solr时直接通过单词内容索引,找到文档id列表

asp.net core系列 75 Elasticsearch与中文分词配置

筅森魡賤 提交于 2020-04-20 03:17:35
一. elasticsearch on windows   1.下载地址:      https://www.elastic.co/cn/downloads/elasticsearch     如果浏览器下载文件慢,建议使用迅雷下载,速度很快。下载版本为7.5.2   2. 修改配置文件     下载后解压,找到config\jvm.options,分配JVM堆内存大小,原则上是分配总内存的50%给 elasticsearch,但不要超过30.5GB,原因是64位寻址会导致性能下降。将默认1g改成512m, 个人电脑当默认1g时,windows安装会出现:HeapDumpOnOutOfMemoryError       3. windows安装      打开cmd执行以下命令      E:\elasticsearch-7.5.2\bin>elasticsearch-service.bat install  4.启动服务     由于elasticsearch比较耗内存,默认安装服务设置启动方式为手动,除非真的使用windwos作为服务器, 手动启动服务后,浏览器查看: http://localhost:9200/ ,出现以下代表成功           name:为集群中的节点名称,默认值为当前机器名称。     cluster_name:集群的名称

IKAnalyzer 独立使用 配置扩展词典

我与影子孤独终老i 提交于 2020-03-23 03:14:51
有三点要注意(要不然扩展词典始终不生效): 后缀名.dic的词典文件,必须如使用文档里所说的 无BOM的UTF-8编码保存的文件。如果不确定什么是 无BOM的UTF-8编码,最简单的方式就是 用Notepad++编辑器打开,Encoding->选择 Encoding in UTF-8 without BOM,然后保存。 项目preferences 里 编码选择 utf8。 词典和IKAnalyzer.cfg.xml配置文件的路径问题。 IKAnalyzer.cfg.xml必须在src根目录下。 词典可以任意放,但是在IKAnalyzer.cfg.xml里要配置对。如下:我的两个词典文件my.dic 和 mine.dic 放在src下的com.org.config包下, 注意com前面一定不要加/,否则是绝对路径找不到。 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在这里配置自己的扩展字典 --> <entry key="ext_dict">com/org/config/my.dic;com/org

Lucene系列四:Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词

こ雲淡風輕ζ 提交于 2020-03-05 07:01:32
一、Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在pom.xml里面引入如下依赖 <!-- lucene 核心模块 --> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>7.3.0</version> </dependency> <!-- Lucene提供的中文分词器模块,lucene-analyzers-smartcn:Lucene 的中文分词器 SmartChineseAnalyzer --> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers-smartcn</artifactId> <version>7.3.0</version> </dependency> 3. 新建一个标准分词器StandardAnalyzer的测试类LuceneStandardAnalyzerTest package com.luceneanalyzer.use.standardanalyzer;

ElasticSearch 重写IK分词器源码设置mysql热词更新词库

北城余情 提交于 2020-02-29 14:00:10
常用热词词库的配置方式 1.采用IK 内置词库 优点:部署方便,不用额外指定其他词库位置 缺点:分词单一化,不能指定想分词的词条 2.IK 外置静态词库 优点:部署相对方便,可以通过编辑指定文件分词文件得到想要的词条 缺点:需要指定外部静态文件,每次需要手动编辑整个分词文件,然后放到指定的文件目录下,重启ES后才能生效 3.IK 远程词库 优点:通过指定一个静态文件代理服务器来设置IK分词的词库信息 缺点:需要手动编辑整个分词文件来进行词条的添加, IK源码中判断头信息Last-Modified ETag 标识来判断是否更新,有时不生效 结合上面的优缺点,决定采用Mysql作为外置热词词库,定时更新热词 和 停用词。 准备工作 1.下载合适的ElasticSearch对应版本的IK分词器:https://github.com/medcl/elasticsearch-analysis-ik 2.我们来查看它config文件夹下的文件: 因为我本地安装的是ES是5.5.0版本,所以下载的IK为5.5.0的适配版 3.分析IKAnalyzer.cfg.xml 配置文件: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

IKAnalyzer中文分析器的使用

给你一囗甜甜゛ 提交于 2020-02-12 17:32:36
首先,也是最重要的一点,你得有 IKAnalyzer 这个jar包 https://pan.baidu.com/s/1bw_pxleG5SCghMSRKNL97A 提取码:ywtg 获得以下文件: 构建项目(普通项目或maven,我这里使用了maven项目)    0.导入lucene依赖 <!-- 添加 lucene 支持 --> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>7.4.0</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers-common</artifactId> <version>7.4.0</version> </dependency>   1.把 jar 包放在项目文件夹下,其他三个文件要放在项目的 classpath 路径下(普通项目直接放在 src 下就可以,maven放在 resources 下)     三个文件的含义:     hotword.dic: 扩展词典,可以自行添加关键词     stopword.dic:扩展停止词典,可以自行添加停用词(敏感词

ElasticSearch安装中文分词器IKAnalyzer

人盡茶涼 提交于 2019-12-23 08:57:04
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> ElasticSearch安装中文分词器IKAnalyzer  本篇主要讲解如何在ElasticSearch中安装中文分词器IKAnalyzer,拆分的每个词都是我们熟知的词语,从而建立词汇与文档关系的倒排索引, 但是如果不使用中文分词,就会把文档每个字拆分成了一个词,对我们中文检索很不友好,本博客系统就是在ElasticSearch中安装了IKAnalyzer分词器从而实现首页的搜索功能,下面开始讲解吧!  1.在线安装  由于我的ElasticSearch 是安装在Docker中的,所以第一步要先进入Docker容器   1.1 进入Docker容器 docker exec -it es /bin/bash   1.2 进入plugin目录      1.3 下载IKAnalyzer    注意一定要和ElasticSearch版本保持一致 否则会无法启动 wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.8.4/elasticsearch-analysis-ik-6.8.4.zip    附上IK 和 Es的对应图 以及 IK github连接 github IK Analyzer   1.4 创建ik

elasticsearch 中文分词插件IK-Analyze

偶尔善良 提交于 2019-12-10 10:17:37
elasticsearch 版本 7.3 安装中文分词插件 插件对应的版本需要和elasticsearch的版本一致 插件各个版本下载地址 https://github.com/medcl/elasticsearch-analysis-ik/releases 使用elasticsearch自带脚本进行安装 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.3.0/elasticsearch-analysis-ik-7.3.0.zip 插件jar包安装在elasticsearch-7.3.0/plugins/analysis-ik下 插件的配置文件存放在elasticsearch-7.3.0/config/analysis-ik下,在此目录中存放了许多词库,如果我们想根据自己业务去扩展一些自定义词库的话,可以修改此目录中的 IKAnalyzer.cfg.xml 文件 例如: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties>