相关性搜索笔记

僤鯓⒐⒋嵵緔 提交于 2020-02-26 22:42:54

第二章:搜索

  • 词典表和倒排表
  • 文档位置很重要,用来做高亮显示
    • 为什么高亮显示重要呢?
      • 比较直观的展示搜索结果的相关性,给用户提供反馈
  • 对原始数据提取、充实、分析、索引
    • 内容提取为文档
    • 充实:清理、强化、合并数据
    • 分析:将文档转化为token
      • 包括:字符过滤、分词处理、token过滤
      • 字符过滤:
      • 分词处理:
      • token 过滤
        • stop words(禁用词)去掉
  • 布尔搜索和Lucene的BooleanQuery的区别
    • 布尔搜索
      • AND、OR、NOT
    • Lucene的BooleanQuery
      • 三个查询子句
        • MUST、SHOULD、MUST_NOT
  • token做为文档特征
    • token分析,获取有意义的信息,对客户意图的判断
  • 查准率和查全率

 

 

 

 

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!