BERT在美团搜索核心排序的探索和实践
为进一步优化美团搜索排序结果的深度语义相关性,提升用户体验,搜索与NLP部算法团队从2019年底开始基于BERT优化美团搜索排序相关性,经过三个月的算法迭代优化,离线和线上效果均取得一定进展。本文主要介绍探索过程以及实践经验。 引言 美团搜索是美团App上最大的连接人和服务的入口,覆盖了团购、外卖、电影、酒店、买菜等各种生活服务。随着用户量快速增长,越来越多的用户在不同场景下都会通过搜索来获取自己想要的服务。理解用户Query,将用户最想要的结果排在靠前的位置,是搜索引擎最核心的两大步骤。但是,用户输入的Query多种多样,既有商户名称和服务品类的Query,也有商户别名和地址等长尾的Query,准确刻画Query与Doc之间的深度语义相关性至关重要。基于Term匹配的传统相关性特征可以较好地判断Query和候选Doc的字面相关性,但在字面相差较大时,则难以刻画出两者的相关性,比如Query和Doc分别为“英语辅导”和“新东方”时两者的语义是相关的,使用传统方法得到的Query-Doc相关性却不一致。 2018年底,以Google BERT[1]为代表的预训练语言模型刷新了多项NLP任务的最好水平,开创了NLP研究的新范式:即先基于大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成下游的NLP任务(文本分类