ikanalyzer

IKAnalyzer中文分词器,兼容solr6.6.0,优化英文数字细粒度搜索

匿名 (未验证) 提交于 2019-12-02 23:59:01
IKAnalyzer2017_6_6_0 码云: https://git.oschina.net/iicode/IKAnalyzer2017_6_6_0 Github: https://github.com/ittalks/IKAnalyzer2017_6_6_0 IKAnalyzer2017_6_6_0.jar下载: https://github.com/ittalks/IKAnalyzer2017_6_6_0/releases/download/v1.0.0/IKAnalyzer2017_6_6_0.jar Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索。 以下介绍solr的 第三方分词器IKAnalyzer 。 注:下面操作在Linux下执行,所添加的配置在windonws下依然有效。 运行环境 Solr:6.6.0 ϵͳ : Linux 以下是设置solr中文分词器的方法。 注:开始之前,假定你已经成功登录solr的界面,并创建了core。 新特性 在使用 IKAnalyzer 分词器之前,先说明由于作者在12年之后没有更新,导致旧版本的分词器和新版本的solr6.6.0无法匹配。 因此在源码的基础上做些改动,以兼容新版的solr。 兼容新版的solr6.6.0; 英文和数据支持单字分词; IK中文分词对于数字和英文的分词方式是:

IKAnalyzer分词

点点圈 提交于 2019-12-02 23:46:02
一、IKAnalyzer介绍 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 IK Analyzer 2012特性: 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式; 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。 IKAnalyzer 同时还有一个非官方的 .NET 版本 —— IKAnalyzer

Solr 7.X 安装和配置--Linux篇

笑着哭i 提交于 2019-12-02 02:29:50
阅读目录: 1. 关闭防火墙和Selinux 2. 安装所需环境JDK 3. 下载Solr7.4版本 4. 下载并配置solr的中文分词器IK Analyzer 5. 启动Solr 6. 注意事项以及说明 1. 关闭防火墙和Selinux Linux的防火墙是咱们新手的噩梦,很多情况会出现能ping通,但是访问不了Web页面。所以开始就干掉它! 1.1 关闭防火墙 [root@localhost ~]# /etc/init.d/iptables stop iptables: Setting chains to policy ACCEPT: filter [ OK ] iptables: Flushing firewall rules: [ OK ] iptables: Unloading modules: [ OK ] 1.2 开机自动关闭防火墙 [root@localhost ~]# chkconfig iptables off 1.3 查看Selinux状态 [root@localhost ~]# sestatus SELinux status: enabled SELinuxfs mount: /sys/fs/selinux SELinux root directory: /etc/selinux Loaded policy name: targeted Current

Solr搜索引擎 — 查询命令和两种中文分词使用

 ̄綄美尐妖づ 提交于 2019-12-01 21:13:36
已经和mysql建立好了关联,可以查询和更新mysql的数据量,接下来就是进阶的使用方式了 附上: 喵了个咪的博客: http://w-blog.cn Solr官网: http://lucene.apache.org/solr/ PS: 8.0.0版本已经发布,本文使用此时较为稳定的7.7.1版本 一,查询命令的基本使用 基本查询方式   q 查询的关键字,此参数最为重要,例如,q=id:1,默认为q=*:*,   fl 指定返回哪些字段,用逗号或空格分隔,注意:字段区分大小写,例如,fl= id,title,sort   start 返回结果的第几条记录开始,一般分页用,默认0开始   rows 指定返回结果最多有多少条记录,默认值为 10,配合start实现分页   sort 排序方式,例如id desc 表示按照 “id” 降序   wt (writer type)指定输出格式,有 xml, json, php等   fq (filter query)过虑查询,提供一个可选的筛选器查询。返回在q查询符合结果中同时符合的fq条件的查询结果,例如:q=id:1&fq=sort:[1 TO 5],找关键字id为1 的,并且sort是1到5之间的。   df 默认的查询字段,一般默认指定。   qt (query type)指定那个类型来处理查询请求,一般不用指定

整合Lucene 4.10.1 与IK Analyzer

无人久伴 提交于 2019-12-01 15:24:18
注意,IK Analyzer需要使用其下载列表中的 IK Analyzer 2012FF_hf1.zip ,否则在和Lucene 4.10配合使用时会报错。 我使用 intellij IDEA 12进行的测试。 建立java项目 建立项目HelloLucene,导入Lucene的几个库。“File”->“Project Structure”-> 将 IK Analyzer 2012FF_hf1.zip 解压后的源码放入src目录,并将字典和配置文件放入src目录,最终如下: 一个示例: IKAnalyzerDemo.java中是我在其他地方找的一个示例,和IK的官方示例很像。内容如下: package org.apache.lucene.demo; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.document.Document; import org

Solr4.9.1在linux环境下的配置安装

久未见 提交于 2019-12-01 11:16:46
运行环境:CentOS6.4 Tomcat7.0 JDK1.7 软件版本: solr-4.9.1 下载链接: http://apache.fayea.com/lucene/solr/ IK-Analyzer-2012FF 下载链接: http://git.oschina.net/wltea/IK-Analyzer-2012FF 安装步骤: CentOS下安装Tomcat,此处不废话。 拷贝 solr-4.9.1/dist路径下 "solr-4.9.1.war" 文件到 tomcat/webapps 目录下,并修改名字为 solr.war。 拷贝 solr-4.9.1/example 路径下“solr”文件夹 到 /usr/cloud 目录下。(/usr/cloud/solr/ 此路径为solr根目录) 在tomcat的 conf/Catalina/localhost/ 目录下创建文件 solr.xml ,若目录不存在,则手工创建。 solr.xml文件内容如下: <!--solr server configuration --> <?xml version="1.0" encoding="utf-8"?> <Context docBase="/usr/local/tomcat/webapps/solr.war" debug="0" crossContext="true" >

lucene集成IK实现中文分词检索

最后都变了- 提交于 2019-11-30 17:19:57
接上篇,解决lucene中文分词问题。 这里采用IK分词器。 IKAnalyzer2012_u5.zip下载地址:http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer2012_u5.zip&can=2&q= 解压缩后,有如下文件: 1、将IKAnalyzer2012.jar导入工程; 2、将IKAnalyzer.cfg.xml、stopword.dic文件拷贝到src根目录下(编译后在classes根目录下); 3、修改CreateIndex.java文件,用IK分词器替换lucene默认分词器。找到 indexWriter = new IndexWriter(dir, new StandardAnalyzer( Version.LUCENE_30), true, IndexWriter.MaxFieldLength.UNLIMITED); 替换为: indexWriter = new IndexWriter(dir,new IKAnalyzer(), true, IndexWriter.MaxFieldLength.UNLIMITED); 4、修改Select.java文件,用IK分词器替换lucene默认分词器。找到 QueryParser queryParser = new

自定义solr域中的配置

徘徊边缘 提交于 2019-11-30 12:58:40
<!-- IKAnalyzer--> <fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType> 指定type的属性 <!--IKAnalyzer Field--> <field name="content_ik" type="text_ik" indexed="true" stored="true" /> 来源: https://www.cnblogs.com/lijun6/p/11590135.html

solr4.9在tomcat7下安装、配置

孤者浪人 提交于 2019-11-30 06:14:17
solr简介 solr是受欢迎的,速度极快的开源企业搜索平台。 主要功能包括强大的全文搜索,搜索词高亮显示,分面搜索,近实时的索引,动态聚类,数据库集成,丰富的文件(例如,Word,PDF)处理,和空间搜索。 Solr是高度可靠的,可扩展性和容错性,提供了分布式的索引,复制和负载均衡的查询,自动故障转移和恢复,集中配置和更多。 许多世界上最大的 互联网网站 的导航、搜索功能都是采用solr实现的 。 solr是 一个基于Lucene、采用JAVA语言编写、运行于 servlet 容器中(如jetty,tomcat)的全文搜索服务器,提供了Rest 的HTTP接口,并支持多种数据格式如json,php,ruby,csv,phps,javabin及自定义格式。 使用的安装介质 jdk1.7.0.45 tomcat 7.0.55 solr-4.9.0.tgz IKAnalyzer2012FF_u1.jar 安装步骤 1: 安装jdk1.7.0.45 2:安装tomcat6.0.36 3: 安装solr #解压文件(假设把 solr-4.9.0.tgz放在/home/solr目录中 ) cd /home/solr tar -zxvf solr-4.9.0.tgz ln -s solr-4.9.0 solr #更改solr工作目录 cp -r /home/solr/solr/example

Solr 4,IKAnalyzer安装配置

偶尔善良 提交于 2019-11-30 06:13:43
一、 JDK 1.5+ 、Tomcat是solr运行的 必须 环境。 二、 下载Solr,得到solr-4.10.2.tgz http://lucene.apache.org/solr/ 三、 安装: 1、解压solr-4.10.2.tgz tar –zxvf solr-4.10.2.tgz 得到solr-4.10.2目录 2、将 solr-4.10.2 /example/webapps/solr.war 拷贝到Tomcat的webapps目录下,启动Tomcat (解压solr.war)。 3、在任意位置创建solr_home目录: (如:apache-tomcat-7.0.56/webapps/solr/solr_home) 4、在tomcat的solr项目中修改web.xml 添加如下配置(apache-tomcat-7.0.56/webapps/solr/WEB-INF/web.xml) 配置solr home的地址: <env-entry> <env-entry-name>solr/home</env-entry-name> <env-entry-value> apache-tomcat-7.0.56/webapps/solr/solr_home </env-entry-value> <env-entry-type>java.lang.String</env-entry