IK分词器 原理分析 源码解析
IK分词器在是一款 基于词典和规则 的中文分词器。本文讲解的IK分词器是独立于elasticsearch、Lucene、solr,可以直接用在java代码中的部分。关于如何开发es分词插件,后续会有文章介绍。 IK分词器的源码: Google Code ,直接下载请点击 这里 。 一、两种分词模式 IK提供两种分词模式:智能模式和细粒度模式(智能:对应es的IK插件的ik_smart,细粒度:对应es的IK插件的ik_max_word)。 先看两种分词模式的demo和效果 import org.wltea.analyzer.core.IKSegmenter;import org.wltea.analyzer.core.Lexeme;import java.io.IOException;import java.io.StringReader; public class IKSegmenterTest { static String text = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。"; public static void main(String[] args) throws IOException { IKSegmenter segmenter = new IKSegmenter(new