Lucene使用IKAnalyzer中文分词笔记
本文主要讲解 IKAnalyzer (以下简称‘ IK ’)在 Lucene 中的具体使用,关于 Lucene 和 IK 分词器的背景及其作用在这里就不再熬述。不得不感叹下 Lucene 版本变更的快速,如今最新已经到了 4.9.0 ,相信任何技术的发展壮大都不可避免有这一过程。本文使用的是 Lucene4.0 , IKAnalyzer 使用的是 2012FF 版。 Lucene 下载请移步官网 , IK 下载地址如下 : http://code.google.com/p/ik-analyzer/downloads/list IK 下载完成够拷贝至项目中,目录结构如下图所示 : 可以看到 src 目录下有三个配置文件,分别为扩展字典文件 ext.dic ,停止词字典文件 stopwprd.dic 和配置文件 IKAnalyzer.cfg.xml 。配置文件 IKAnalyzer.cfg.xml 为配置扩展字典文件和停止词字典文件路径。 IKAnalyzer.cfg.xml 文件默认放置在 classpath 的根目录下,可以修改源码来改变该文件位置。 在程序中使用 IK 很简单,只需要创建 IKAnalyzer 对象即可,因为 IKAnalyzer 继承于 Lucene 的 Analyzer 。 IK 无参构造函数默认采用细粒度切分算法, Analyzer analyzer =