阿里定向广告新一代主模型:基于搜索的超长用户行为建模范式
阿里提出并实现了一套基于搜索范式的超长用户行为建模新方法Search-based user Interest Model(SIM),用于解决工业级应用大规模的用户行为建模的挑战。 对用户沉淀的海量历史行为数据进行充分的理解和学习, 是电商、信息流、短视频推荐这类强用户行为反馈驱动的应用中,近几年技术研发的关键方向,尤其是 CTR 模型这个领域,更是关键的胜负手。 以淘宝为例,大量的用户在网站上沉淀了长达数年甚至十几年的历史行为数据:平均每个用户每年产生的点击量超过了 10000,更不用提其中高频用户的活跃行为了。然而,如何建模这种超长行为序列的数据,学术界和工业界都还在早期阶段摸索。传统的如 LSTM、Transformer 等序列建模的技术,普遍适用于序列数据长度在 100 以内的情况,当序列长度提高一个数量级达到 1000 以上时,都会存在困难;此外,即使离线模型能够处理,如何将模型部署到实际生产系统,在时延和吞吐上都达到工业级标准,更是极具挑战的难题。 18 年我们团队研发上线、19 年在 KDD 上披露的 MIMN[1],是业界首个处理超长行为序列的工业级解决方案,其提出了一套能够对长达 1000 长度的行为序列数据进行训练和在线 serving 的整体解决方案。然而,MIMN 算法基于的是 memory network,在处理更大规模的序列数据时,容易被数据的噪声干扰