ikanalyzer | 易学教程

IKAnalyzer中文分词器，兼容solr6.6.0，优化英文数字细粒度搜索

阅读更多关于 IKAnalyzer中文分词器，兼容solr6.6.0，优化英文数字细粒度搜索

IKAnalyzer2017_6_6_0 码云: https://git.oschina.net/iicode/IKAnalyzer2017_6_6_0 Github: https://github.com/ittalks/IKAnalyzer2017_6_6_0 IKAnalyzer2017_6_6_0.jar下载: https://github.com/ittalks/IKAnalyzer2017_6_6_0/releases/download/v1.0.0/IKAnalyzer2017_6_6_0.jar Solr作为搜索应用服务器，我们在使用过程中，不可避免的要使用中文搜索。以下介绍solr的第三方分词器IKAnalyzer 。注：下面操作在Linux下执行，所添加的配置在windonws下依然有效。运行环境 Solr：6.6.0 ϵͳ : Linux 以下是设置solr中文分词器的方法。注：开始之前，假定你已经成功登录solr的界面，并创建了core。新特性在使用 IKAnalyzer 分词器之前，先说明由于作者在12年之后没有更新，导致旧版本的分词器和新版本的solr6.6.0无法匹配。因此在源码的基础上做些改动，以兼容新版的solr。兼容新版的solr6.6.0；英文和数据支持单字分词； IK中文分词对于数字和英文的分词方式是：

IKAnalyzer分词

阅读更多关于 IKAnalyzer分词

一、IKAnalyzer介绍 IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 IK Analyzer 2012特性: 采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。 IKAnalyzer 同时还有一个非官方的 .NET 版本 —— IKAnalyzer

Solr 7.X 安装和配置--Linux篇

阅读更多关于 Solr 7.X 安装和配置--Linux篇

阅读目录： 1. 关闭防火墙和Selinux 2. 安装所需环境JDK 3. 下载Solr7.4版本 4. 下载并配置solr的中文分词器IK Analyzer 5. 启动Solr 6. 注意事项以及说明 1. 关闭防火墙和Selinux Linux的防火墙是咱们新手的噩梦，很多情况会出现能ping通，但是访问不了Web页面。所以开始就干掉它！ 1.1 关闭防火墙 [root@localhost ~]# /etc/init.d/iptables stop iptables: Setting chains to policy ACCEPT: filter [ OK ] iptables: Flushing firewall rules: [ OK ] iptables: Unloading modules: [ OK ] 1.2 开机自动关闭防火墙 [root@localhost ~]# chkconfig iptables off 1.3 查看Selinux状态 [root@localhost ~]# sestatus SELinux status: enabled SELinuxfs mount: /sys/fs/selinux SELinux root directory: /etc/selinux Loaded policy name: targeted Current

Solr搜索引擎 — 查询命令和两种中文分词使用

阅读更多关于 Solr搜索引擎 — 查询命令和两种中文分词使用

已经和mysql建立好了关联，可以查询和更新mysql的数据量，接下来就是进阶的使用方式了附上: 喵了个咪的博客： http://w-blog.cn Solr官网： http://lucene.apache.org/solr/ PS： 8.0.0版本已经发布，本文使用此时较为稳定的7.7.1版本一，查询命令的基本使用基本查询方式　　q 查询的关键字，此参数最为重要，例如，q=id:1，默认为q=*:*，　　fl 指定返回哪些字段，用逗号或空格分隔，注意：字段区分大小写，例如，fl= id,title,sort 　　start 返回结果的第几条记录开始，一般分页用，默认0开始　　rows 指定返回结果最多有多少条记录，默认值为 10，配合start实现分页　　sort 排序方式，例如id desc 表示按照 “id” 降序　　wt (writer type)指定输出格式，有 xml, json, php等　　fq （filter query）过虑查询，提供一个可选的筛选器查询。返回在q查询符合结果中同时符合的fq条件的查询结果，例如：q=id:1&fq=sort:[1 TO 5]，找关键字id为1 的，并且sort是1到5之间的。　　df 默认的查询字段，一般默认指定。　　qt （query type）指定那个类型来处理查询请求，一般不用指定

整合Lucene 4.10.1 与IK Analyzer

阅读更多关于整合Lucene 4.10.1 与IK Analyzer

注意，IK Analyzer需要使用其下载列表中的 IK Analyzer 2012FF_hf1.zip ，否则在和Lucene 4.10配合使用时会报错。我使用 intellij IDEA 12进行的测试。建立java项目建立项目HelloLucene，导入Lucene的几个库。“File”->“Project Structure”-> 将 IK Analyzer 2012FF_hf1.zip 解压后的源码放入src目录，并将字典和配置文件放入src目录，最终如下：一个示例： IKAnalyzerDemo.java中是我在其他地方找的一个示例，和IK的官方示例很像。内容如下： package org.apache.lucene.demo; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.document.Document; import org

Solr4.9.1在linux环境下的配置安装

阅读更多关于 Solr4.9.1在linux环境下的配置安装

运行环境：CentOS6.4 Tomcat7.0 JDK1.7 软件版本： solr-4.9.1 下载链接： http://apache.fayea.com/lucene/solr/ IK-Analyzer-2012FF 下载链接： http://git.oschina.net/wltea/IK-Analyzer-2012FF 安装步骤： CentOS下安装Tomcat，此处不废话。拷贝 solr-4.9.1/dist路径下 "solr-4.9.1.war" 文件到 tomcat/webapps 目录下，并修改名字为 solr.war。拷贝 solr-4.9.1/example 路径下“solr”文件夹到 /usr/cloud 目录下。(/usr/cloud/solr/ 此路径为solr根目录) 在tomcat的 conf/Catalina/localhost/ 目录下创建文件 solr.xml ,若目录不存在，则手工创建。 solr.xml文件内容如下：  <?xml version="1.0" encoding="utf-8"?> <Context docBase="/usr/local/tomcat/webapps/solr.war" debug="0" crossContext="true" >

lucene集成IK实现中文分词检索

阅读更多关于 lucene集成IK实现中文分词检索

接上篇，解决lucene中文分词问题。这里采用IK分词器。 IKAnalyzer2012_u5.zip下载地址：http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer2012_u5.zip&can=2&q= 解压缩后，有如下文件： 1、将IKAnalyzer2012.jar导入工程； 2、将IKAnalyzer.cfg.xml、stopword.dic文件拷贝到src根目录下（编译后在classes根目录下）; 3、修改CreateIndex.java文件，用IK分词器替换lucene默认分词器。找到 indexWriter = new IndexWriter(dir, new StandardAnalyzer( Version.LUCENE_30), true, IndexWriter.MaxFieldLength.UNLIMITED); 替换为： indexWriter = new IndexWriter(dir,new IKAnalyzer(), true, IndexWriter.MaxFieldLength.UNLIMITED); 4、修改Select.java文件，用IK分词器替换lucene默认分词器。找到 QueryParser queryParser = new

自定义solr域中的配置

阅读更多关于自定义solr域中的配置

<fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType> 指定type的属性  <field name="content_ik" type="text_ik" indexed="true" stored="true" /> 来源： https://www.cnblogs.com/lijun6/p/11590135.html

solr4.9在tomcat7下安装、配置

阅读更多关于 solr4.9在tomcat7下安装、配置

solr简介 solr是受欢迎的，速度极快的开源企业搜索平台。主要功能包括强大的全文搜索，搜索词高亮显示，分面搜索，近实时的索引，动态聚类，数据库集成，丰富的文件（例如，Word，PDF）处理，和空间搜索。 Solr是高度可靠的，可扩展性和容错性，提供了分布式的索引，复制和负载均衡的查询，自动故障转移和恢复，集中配置和更多。许多世界上最大的互联网网站的导航、搜索功能都是采用solr实现的。 solr是一个基于Lucene、采用JAVA语言编写、运行于 servlet 容器中（如jetty,tomcat）的全文搜索服务器，提供了Rest 的HTTP接口，并支持多种数据格式如json,php,ruby,csv,phps,javabin及自定义格式。使用的安装介质 jdk1.7.0.45 tomcat 7.0.55 solr-4.9.0.tgz IKAnalyzer2012FF_u1.jar 安装步骤 1: 安装jdk1.7.0.45 2：安装tomcat6.0.36 3: 安装solr #解压文件（假设把 solr-4.9.0.tgz放在/home/solr目录中） cd /home/solr tar -zxvf solr-4.9.0.tgz ln -s solr-4.9.0 solr #更改solr工作目录 cp -r /home/solr/solr/example

Solr 4，IKAnalyzer安装配置

阅读更多关于 Solr 4，IKAnalyzer安装配置

一、 JDK 1.5+ 、Tomcat是solr运行的必须环境。二、下载Solr，得到solr-4.10.2.tgz http://lucene.apache.org/solr/ 三、安装： 1、解压solr-4.10.2.tgz tar –zxvf solr-4.10.2.tgz 得到solr-4.10.2目录 2、将 solr-4.10.2 /example/webapps/solr.war 拷贝到Tomcat的webapps目录下，启动Tomcat (解压solr.war)。 3、在任意位置创建solr_home目录：（如：apache-tomcat-7.0.56/webapps/solr/solr_home） 4、在tomcat的solr项目中修改web.xml 添加如下配置（apache-tomcat-7.0.56/webapps/solr/WEB-INF/web.xml）配置solr home的地址： <env-entry> <env-entry-name>solr/home</env-entry-name> <env-entry-value> apache-tomcat-7.0.56/webapps/solr/solr_home </env-entry-value> <env-entry-type>java.lang.String</env-entry

订阅 ikanalyzer