ikanalyzer

搜索引擎(认识Elasticsearch)

无人久伴 提交于 2019-12-06 21:04:11
学习目标 明白elasticsearch是什么,它可用于什么场景,为什么需要学习掌握它。 了解elasticsearch的特性、架构、产品栈 掌握ES的核心概念 会集成IkAnalyzer ES简介 Elasticsearch 是一个开源的搜索引擎,建立在全文搜索引擎库 Apache Lucene 基础之上。 用 Java 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API。 Elasticsearch 不仅仅只是一个全文搜索引擎。 它可以被下面这样准确的形容: 一个分布式的实时文档存储,每个字段 可以被索引与搜索 一个分布式实时分析搜索引擎 能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据 ES的发展历程 Elasticsearch 后来作为一家公司(Elastic公司)进行运作,定位为数据搜索和分析平台。在2014年6月获得7000万美元融资,累积融资过亿美元。 ES现在可以与Java、Ruby、Python、PHP、Perl、.NET等多种客户端集成。也可与Hadoop、Spark等大数据分析平台进行集成,功能十分强大。 基于Elasticsearch衍生出了一系列开源软件,统称为 Elatic Stack(见下页)。 为避免版本混乱

Solr搜索引擎 — 中文全拼简拼分词

你。 提交于 2019-12-05 23:23:05
搞定了中文分词下一个就是要来搞定拼音分词了,拼音分词有分为全拼和简拼 附上: 喵了个咪的博客: http://w-blog.cn Solr官网: http://lucene.apache.org/solr/ PS: 8.0.0版本已经发布,本文使用此时较为稳定的7.7.1版本 一,全拼分词 > wget http://files.cnblogs.com/files/wander1129/pinyin.zip > unzip pinyin.zip > mv pinyin4j-2.5.0.jar server/solr-webapp/webapp/WEB-INF/lib > mv pinyinAnalyzer4.3.1.jar server/solr-webapp/webapp/WEB-INF/lib > vim server/solr/new_core/conf/managed-schema <fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> <filter class="com.shentong

打造自己的搜索引擎

坚强是说给别人听的谎言 提交于 2019-12-05 12:02:58
这周项目要做一个搜索引擎系统,于是,我看看了看上下左右,看来只有我来弄了~~ 代码其中参考了@红薯的Lucene 早年分享的代码,与一些朋友的精华博客。算是入门了,这个入门花了我40篇日志。 需求 项目中会用到搜索,需求不复杂:根据关键字,搜索出文章,公司,产品。 技术 Java(Spring)用于查询数据源,用的是,JDK7。 Lucene 做的是搜索,存储功能,用的是,Lucene5。 IKAnalyzer做的是分词功能,用的是,IKAnalyzer5。 关键点 1.Lucene的多个索引目录的近实时搜索。 因为涉及到公司,产品,文章,所以建立了多个索引,需要在多个索引之间进行查询,如果索引发生变更,则需要立马查询到最新数据。 2.分页与文章段落标红显示。 Lucene的分页功能,一定要优化~ 关键字标红功能,特别是文章某一段匹配了关键字,然后只显示那一段前后的文字,效果图里有效果,详情里前后有"..."的就是,不是整个内容全部显示,而是某一部分前后标红显示。 3.查询公司名称时只输入公司名一个字搜索不到公司。 这时就需要扩展词典,将useSmart关闭。 效果图 未完待续~~~ 来源: oschina 链接: https://my.oschina.net/u/1017195/blog/535745

中文分词工具

我怕爱的太早我们不能终老 提交于 2019-12-05 10:01:51
中文分词工具非常繁多,主要与大家分享其中几个工具,这是本人第一次接触中文分词工具,望轻喷。 中文分词工具: 1 、IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。 http://www.oschina.net/p/ikanalyzer 源码地址: http://www.oschina.net/news/58998/ikanalyzer-source-move-to-gitosc 使用方式:下载IK Analyzer( http://pan.baidu.com/s/1hssEdog ),在Java工程中引入jar包即可。 2 、NLPIR 中文分词库(又名 ICTCLAS 2013) 示例(Java): http://my.oschina.net/u/944980/blog/132183 3 、Jcseg 是基于mmseg算法的一个轻量级开源中文分词工具 http://www.oschina.net/p/jcseg 4 、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/ )实现的 http://www.oschina.net/p/mmseg4j 5 、Anjs 中文分词器 http://www.oschina.net/p/ansj Python

【Solr】- 分析器 Analyzers

我们两清 提交于 2019-12-04 00:44:38
作用 :解析用户传递的搜索信息,抽取出关键字,然后进行过滤,最后去索引库检索,返回用户需要的信息,例如百度的关键字竞价机制 Solr分析器组成:分词器和过滤器 分词器:抽取关键字 过滤器:过滤关键字 Analyzers:分析器 作用:检查域的文本和生成token stream,分析器通过scheme.xml配置文件中的fieldType元素配置,传统的搜索时全文匹配,分析器可以通过分析用户输入的文本字符抽取term(关键字),进行查询然后汇总结果,这样搜索引擎更加智能化 简单案例:schema.xml配置 <fieldType name="nametext" class="solr.TextField"> <analyzer class="org.apache.lucene.analysis.core.WhitespaceAnalyzer"/> </fieldType> 分析:为solr.TextField的域类型指定分析器 复杂定义分析器: <fieldType name="nametext" class="solr.TextField"> <analyzer> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.StandardFilterFactory"/> <filter class=

搜索引擎(Lucene介绍、分词器详解)

不问归期 提交于 2019-12-03 10:53:45
Lucene介绍 Lucene简介 最受欢迎的java开源全文 搜索引擎开发工具包 。提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索功能,或者是以此为基础建立起完整的全文检索引擎。 是Apache的子项目,网址:http://lucene.apache.org/ Lucene用途 为软件开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索功能,或者是以此为基础建立起完整的全文检索引擎。 Lucene适用场景 在应用中为数据库中的数据提供全文检索实现。 开发独立的搜索引擎服务、系统 Lucene的特性 1、稳定、索引性能高 每小时能够索引150GB以上的数据。 对内存的要求小——只需要1MB的堆内存 增量索引和批量索引一样快。 索引的大小约为索引文本大小的20%~30% 2、高效、准确、高性能的搜索算法 良好的搜索排序。 强大的查询方式支持:短语查询、通配符查询、临近查询、范围查询等。 支持字段搜索(如标题、作者、内容)。 可根据任意字段排序 支持多个索引查询结果合并 支持更新操作和查询操作同时进行 支持高亮、join、分组结果功能 速度快 可扩展排序模块,内置包含向量空间模型、BM25模型可选 可配置存储引擎 3、跨平台 纯java编写。

中文 IKAnalyzer 分词

喜你入骨 提交于 2019-12-03 10:53:35
package NaviveBayesClassify; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.lucene.IKAnalyzer; public class ChineseSpliter { /** * 对给定的文本进行中文分词 * * @param text * 给定的文本 * @param splitToken * 用于分割的标记,如"|" * @return 分词完毕的文本 * @throws IOException */ public static String split(String text, String splitToken) throws IOException { String result = null; // 创建分词对象 @SuppressWarnings("resource") Analyzer

基于IKAnalyzer搭建分词服务

匿名 (未验证) 提交于 2019-12-03 00:41:02
前端高亮需要分词服务,nlp团队提供的分词服务需要跨域调用,而且后台数据索引使用的IK分词。综合评价,前端分词也需要基于IK分词器。 IKAnalyzer服务已经停止更新,且对Lucene支持仅测试到4.x.x版本(6.x.x会出现异常),因此使用IK分词器时需要解决一些异常。 项目以及maven构建,需要指定IK依赖以及Lucene依赖如下: <dependency> <groupId>com.janeluo</groupId> <artifactId>ikanalyzer</artifactId> <version>2012_u6</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>4.10.4</version> </dependency> import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea

Lucence-IKAnalyzer中文分词器

匿名 (未验证) 提交于 2019-12-03 00:26:01
Lucence IKAnalyzer中文分词器 文 | 分词 | 工具包 | : 导入包和相关配置文件 配置文件IKAnalyzer.cfg.xml <? xml version = "1.0" encoding = "UTF-8" ?> <! DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd" > < properties > < comment > 扩展配置 </ comment > <!-- 用户可以在这里配置自己的扩展字典 <!-- 用户可以在这里配置自己的扩展停止词字典 </ properties > 修改配置类Configuration 修改配置类Configuration的分词器,使用IKAnalyzer分词器,主要参看红色部分代码 class Configuration { private Configuration(){} public final Version LOCAL_VERSION =Version. LUCENE_30 ; // 使用 IKAnalyzer, 当参数为 true 时,表示使用最大词长分词, false 表示使用细粒度分词 public staticfinal Analyzer ANALYZER = new IKAnalyzer( true );

自定义solr域中的配置

匿名 (未验证) 提交于 2019-12-03 00:11:01
<!-- IKAnalyzer--> <fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType> 指定type的属性 <!--IKAnalyzer Field--> <field name="content_ik" type="text_ik" indexed="true" stored="true" /> 来源:博客园 作者: 李俊互联网技术传播者 链接:https://www.cnblogs.com/lijun6/p/11590135.html