Factorization Machine模型的各种变式

江枫思渺然 提交于 2021-02-11 13:56:15

 关注“AI科技时讯

设为星标,第一时间获取更多干货


FM模型最早由Steffen Rendle在2010年提出,解决了稀疏数据场景下的特征组合问题,在广告、推荐等领域被广泛使用。FM模型简单而且效果好,可以作为业务初期快速取得收益,为后续持续迭代提供一个较强的baseline。FM模型从首次提出到现在已经过去七八年时间,这期间的研究进展如何呢?比如:

  • FM类模型有哪些改进?

  • 哪些模型或者应用引入了FM思想?

  • 近期的顶会针对FM有哪些改进工作?

  • 工业界大规模数据场景下如何分布式训练FM模型?

这一连串的问题代表了学术界和工业界对FM模型关于如何优化和实际应用的深入思考。带着这些问题,下文中笔者根据自己的理解将从不同方面对FM模型的演进进行介绍。文中涉及到的公式进行统一表示来方便读者理解,并为读者提供了参考文献的链接。

一、区别特征交互作用

这部分模型的演进思路就是根据假设来增加参数量(即模型复杂度)来提高模型表达能力。FFM模型参数量太大,一则容易过拟合,二则不利于线上大规模部署(内存压力)。笔者更倾向于Field-weighted FM,简单有效,在效果和实际应用上做了很好的tradeoff。

  • FM

文章链接:csie.ntu.edu.tw/~b97053

  • Field-aware FM

文章链接:csie.ntu.edu.tw/~r01922

FM中一个特征只对应一个向量,而在实际场景中特征和不同field的特征交互时应该使用不同的向量,这就是Field-aware FM(FFM)的提出动机。FFM最早由阮毓钦提出,最早在kaggle上大放异彩,现在在业界也有一定使用。

  • Attentional FM

文章链接:Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

这篇文章发表在IJCAI 2017。区分不同特征相互作用的方式不再像ffm那么笨重,而且用一个神经网络学习得到参数  ,总体参数量增加不明显。

  • Field-weighted FM

文章链接:[1806.03514] Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising

这篇文章发表在WWW 2018。区分不同特征相互作用非常简单直接。具体方法是针对每两个特征增加一个参数,这样相对FM模型只增加 个参数(k是field数目)。

二、和深度学习结合

这部分模型的思路,特别是DeepFM,已经被工业界快速跟进和借鉴到推荐、搜索等业务场景。

  • DeepFM

文章链接:DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

这篇发表在IJCAI 2017。DeepFM主要是基于Wide&Deep框架改进,将其中wide部分换成fm进行二阶交叉。

  • NFM

文章链接:Neural Factorization Machines for Sparse Predictive Analytics

这篇发表在SIGIR 2017。FM最终二阶交叉相加后得到k维的向量,NFM是将该k维的向量输入给全连接,而不是像FM直接加起来作为最终结果。可以认为FM模型是NFM的一个子集。

三、和Learning to Rank结合

这部分和工业界中的排序场景联系紧密,可做参考。

  • Pairwise FM

文章链接:Exploiting ranking factorization machines for microblog retrieval

这篇文章发表在CIKM 2013。LTR中的pairwise是挑选一个正负样本对作为一个新的样本,具体就是  。如果  ,则就是PairWise FM。那如果  则就是很有名的RANKSVM。

  • Lambda FM

文章链接:LambdaFM

这篇文章发表在CIKM 2016。主要贡献是将LambdaRank的思想加入到Pairwise FM中。github上有个开源实现CastellanZhang/lambdaFM,支持FTRL优化,支持单机多线程。

四、分布式训练

在实际应用中,一旦训练数据量上升到大几百G或者1T以上的级别,即使采用单机多线程训练,也会严重阻碍模型调研的速度。所以说在工业界做模型的分布式训练是有真实的业务需求驱动,相信大厂都有成熟的基于ps的FM轮子。对于大规模分布式机器学习感兴趣的读者建议细读下面两篇文章。

  • DiFacto

文章链接:cs.cmu.edu/~muli/file/d

这篇发表在WSDM 2016。主要针对FM算法,基于Parameter Server进行梯度的异步更新。在github上也有开源,但是后面不怎么维护了。

  • F2M

文章链接:net.pku.edu.cn/vc/paper

这篇发表在NIPS 2016。这篇文章主要是提出了基于Ps架构的FFM算法。

五、更高阶特征交叉

  • High-Order FM

文章链接:Higher-Order Factorization Machines

这篇文章发表在NIPS 2016。传统意义上讲FM都是二阶交叉,计算复杂度可通过数学变换将时间复杂度改进到线性时间,在实际应用中一般也只用到二阶交叉。这篇文章解决了三阶甚至更高阶的特征交叉问题。

六、其他变种

  • Robust FM

文章链接:Robust Factorization Machines for User Response Prediction

这篇发表在WWW 2018。文章引入了robust optimization的思想,增加 和 分别在一次项和二次项的时候表示噪声。

  • Discrete FM

文章链接:[1805.02232] Discrete Factorization Machines for Fast Feature-based Recommendation

这篇发表在IJCAI 2018。这篇文章主要解决FM在一些特殊场景下模型容量和计算耗时偏大的问题。FM中隐向量  ,每个元素是实数值,而在Discrete FM中,隐向量  。最终模型效果相对FM有下降,但是效率大大提升。

  • SFTRL FM

文章链接:Sketched Follow-The-Regularized-Leader for Online Factorization Machine

https://zhuanlan.zhihu.com/p/52877868


本文分享自微信公众号 - AI科技时讯(aiblog_research)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!