ikanalyzer | 易学教程

搜索引擎（认识Elasticsearch）

阅读更多关于搜索引擎（认识Elasticsearch）

学习目标明白elasticsearch是什么，它可用于什么场景，为什么需要学习掌握它。了解elasticsearch的特性、架构、产品栈掌握ES的核心概念会集成IkAnalyzer ES简介 Elasticsearch 是一个开源的搜索引擎，建立在全文搜索引擎库 Apache Lucene 基础之上。用 Java 编写的，它的内部使用 Lucene 做索引与搜索，但是它的目的是使全文检索变得简单，通过隐藏 Lucene 的复杂性，取而代之的提供一套简单一致的 RESTful API。 Elasticsearch 不仅仅只是一个全文搜索引擎。它可以被下面这样准确的形容：一个分布式的实时文档存储，每个字段可以被索引与搜索一个分布式实时分析搜索引擎能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据 ES的发展历程 Elasticsearch 后来作为一家公司（Elastic公司）进行运作，定位为数据搜索和分析平台。在2014年6月获得7000万美元融资，累积融资过亿美元。 ES现在可以与Java、Ruby、Python、PHP、Perl、.NET等多种客户端集成。也可与Hadoop、Spark等大数据分析平台进行集成，功能十分强大。基于Elasticsearch衍生出了一系列开源软件，统称为 Elatic Stack（见下页）。为避免版本混乱

Solr搜索引擎 — 中文全拼简拼分词

阅读更多关于 Solr搜索引擎 — 中文全拼简拼分词

搞定了中文分词下一个就是要来搞定拼音分词了，拼音分词有分为全拼和简拼附上: 喵了个咪的博客： http://w-blog.cn Solr官网： http://lucene.apache.org/solr/ PS： 8.0.0版本已经发布，本文使用此时较为稳定的7.7.1版本一，全拼分词 > wget http://files.cnblogs.com/files/wander1129/pinyin.zip > unzip pinyin.zip > mv pinyin4j-2.5.0.jar server/solr-webapp/webapp/WEB-INF/lib > mv pinyinAnalyzer4.3.1.jar server/solr-webapp/webapp/WEB-INF/lib > vim server/solr/new_core/conf/managed-schema <fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> <filter class="com.shentong

打造自己的搜索引擎

阅读更多关于打造自己的搜索引擎

这周项目要做一个搜索引擎系统，于是，我看看了看上下左右，看来只有我来弄了~~ 代码其中参考了@红薯的Lucene 早年分享的代码，与一些朋友的精华博客。算是入门了，这个入门花了我40篇日志。需求项目中会用到搜索，需求不复杂：根据关键字，搜索出文章，公司，产品。技术 Java（Spring）用于查询数据源，用的是，JDK7。 Lucene 做的是搜索，存储功能，用的是，Lucene5。 IKAnalyzer做的是分词功能，用的是，IKAnalyzer5。关键点 1.Lucene的多个索引目录的近实时搜索。因为涉及到公司，产品，文章，所以建立了多个索引，需要在多个索引之间进行查询，如果索引发生变更，则需要立马查询到最新数据。 2.分页与文章段落标红显示。 Lucene的分页功能，一定要优化~ 关键字标红功能，特别是文章某一段匹配了关键字，然后只显示那一段前后的文字，效果图里有效果，详情里前后有"..."的就是，不是整个内容全部显示，而是某一部分前后标红显示。 3.查询公司名称时只输入公司名一个字搜索不到公司。这时就需要扩展词典，将useSmart关闭。效果图未完待续~~~ 来源： oschina 链接： https://my.oschina.net/u/1017195/blog/535745

中文分词工具

阅读更多关于中文分词工具

中文分词工具非常繁多，主要与大家分享其中几个工具，这是本人第一次接触中文分词工具，望轻喷。中文分词工具： 1 、IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。 http://www.oschina.net/p/ikanalyzer 源码地址： http://www.oschina.net/news/58998/ikanalyzer-source-move-to-gitosc 使用方式：下载IK Analyzer（ http://pan.baidu.com/s/1hssEdog ），在Java工程中引入jar包即可。 2 、NLPIR 中文分词库(又名 ICTCLAS 2013) 示例（Java）： http://my.oschina.net/u/944980/blog/132183 3 、Jcseg 是基于mmseg算法的一个轻量级开源中文分词工具 http://www.oschina.net/p/jcseg 4 、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/ )实现的 http://www.oschina.net/p/mmseg4j 5 、Anjs 中文分词器 http://www.oschina.net/p/ansj Python

【Solr】- 分析器 Analyzers

阅读更多关于【Solr】- 分析器 Analyzers

作用：解析用户传递的搜索信息，抽取出关键字，然后进行过滤，最后去索引库检索，返回用户需要的信息，例如百度的关键字竞价机制 Solr分析器组成：分词器和过滤器分词器：抽取关键字过滤器：过滤关键字 Analyzers:分析器作用：检查域的文本和生成token stream,分析器通过scheme.xml配置文件中的fieldType元素配置，传统的搜索时全文匹配，分析器可以通过分析用户输入的文本字符抽取term（关键字），进行查询然后汇总结果，这样搜索引擎更加智能化简单案例：schema.xml配置 <fieldType name="nametext" class="solr.TextField"> <analyzer class="org.apache.lucene.analysis.core.WhitespaceAnalyzer"/> </fieldType> 分析：为solr.TextField的域类型指定分析器复杂定义分析器： <fieldType name="nametext" class="solr.TextField"> <analyzer> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.StandardFilterFactory"/> <filter class=

搜索引擎（Lucene介绍、分词器详解）

阅读更多关于搜索引擎（Lucene介绍、分词器详解）

Lucene介绍 Lucene简介最受欢迎的java开源全文搜索引擎开发工具包。提供了完整的查询引擎和索引引擎，部分文本分词引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便在目标系统中实现全文检索功能，或者是以此为基础建立起完整的全文检索引擎。是Apache的子项目，网址：http://lucene.apache.org/ Lucene用途为软件开发人员提供一个简单易用的工具包，以方便在目标系统中实现全文检索功能，或者是以此为基础建立起完整的全文检索引擎。 Lucene适用场景在应用中为数据库中的数据提供全文检索实现。开发独立的搜索引擎服务、系统 Lucene的特性 1、稳定、索引性能高每小时能够索引150GB以上的数据。对内存的要求小——只需要1MB的堆内存增量索引和批量索引一样快。索引的大小约为索引文本大小的20%~30% 2、高效、准确、高性能的搜索算法良好的搜索排序。强大的查询方式支持：短语查询、通配符查询、临近查询、范围查询等。支持字段搜索（如标题、作者、内容）。可根据任意字段排序支持多个索引查询结果合并支持更新操作和查询操作同时进行支持高亮、join、分组结果功能速度快可扩展排序模块，内置包含向量空间模型、BM25模型可选可配置存储引擎 3、跨平台纯java编写。

中文 IKAnalyzer 分词

阅读更多关于中文 IKAnalyzer 分词

package NaviveBayesClassify; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.lucene.IKAnalyzer; public class ChineseSpliter { /** * 对给定的文本进行中文分词 * * @param text * 给定的文本 * @param splitToken * 用于分割的标记,如"|" * @return 分词完毕的文本 * @throws IOException */ public static String split(String text, String splitToken) throws IOException { String result = null; // 创建分词对象 @SuppressWarnings("resource") Analyzer

基于IKAnalyzer搭建分词服务

阅读更多关于基于IKAnalyzer搭建分词服务

前端高亮需要分词服务，nlp团队提供的分词服务需要跨域调用，而且后台数据索引使用的IK分词。综合评价，前端分词也需要基于IK分词器。 IKAnalyzer服务已经停止更新，且对Lucene支持仅测试到4.x.x版本（6.x.x会出现异常），因此使用IK分词器时需要解决一些异常。项目以及maven构建，需要指定IK依赖以及Lucene依赖如下： <dependency> <groupId>com.janeluo</groupId> <artifactId>ikanalyzer</artifactId> <version>2012_u6</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>4.10.4</version> </dependency> import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea

Lucence-IKAnalyzer中文分词器

阅读更多关于 Lucence-IKAnalyzer中文分词器

Lucence IKAnalyzer中文分词器文 | 分词 | 工具包 | : 导入包和相关配置文件配置文件IKAnalyzer.cfg.xml <? xml version = "1.0" encoding = "UTF-8" ?> <! DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd" > < properties > < comment > 扩展配置 </ comment > <!-- 用户可以在这里配置自己的扩展字典 <!-- 用户可以在这里配置自己的扩展停止词字典 </ properties > 修改配置类Configuration 修改配置类Configuration的分词器，使用IKAnalyzer分词器，主要参看红色部分代码 class Configuration { private Configuration(){} public final Version LOCAL_VERSION =Version. LUCENE_30 ; // 使用 IKAnalyzer, 当参数为 true 时，表示使用最大词长分词， false 表示使用细粒度分词 public staticfinal Analyzer ANALYZER = new IKAnalyzer( true );

自定义solr域中的配置

阅读更多关于自定义solr域中的配置

<fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType> 指定type的属性  <field name="content_ik" type="text_ik" indexed="true" stored="true" /> 来源：博客园作者：李俊互联网技术传播者链接：https://www.cnblogs.com/lijun6/p/11590135.html

订阅 ikanalyzer