Lucene in Action-构建索引
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 文档和域(document、filed) 索引过程,将原始数据转换成Lucene能识别的 document和filed 搜索过程,被搜索对象为域值 Lucene 索引过程 分析过程,将 域文本 处理成 大量语汇单元 提取文本、创建文档 分析文档 分析文本,先将其转换成语汇单元串 也包括一系列可选操作:比如去除无意义词语,改变词语的状态等 IndexWriter 的 addDocument 向索引添加文档 倒排索引存储结构,有效利用磁盘空间 将语汇单元作为查询关键字,而不是整个文档 索引段 Lucene 索引都包含一个或多个段 每个段都是独立索引 是整个文档索引的子集 每当write刷新缓存区增加的文档、挂起目录、删除操作,都会新增加一个段 搜索索引时,每个段独立访问,结果合并返回 每个段包含多个文件 格式为 _x.<ext> .<ext>为扩展名,表示对应的索引的某个部分 压缩成单一文件:_X.cfs 特殊文件:段文件 _<N> 指向所有激活的段 Lucene 先打开它,再去打开他指向的段 <N> 代表整数,修改一次索引 加1 段集聚太多 周期性合并一些段成新的段(然后删掉老的多个段) 基本索引操作 向索引中添加文档 删除索引文档 优化删除,强制合并索引段 更新索引文档 Lucene无法做到更新操作