最小推荐系统:隐语义模型(Latent Factor Model)
在 上一篇 中提到,邻域方法(Neighborhood/Similarity Based Models)基于一个强假设:在观测到用户消费过条目A之后,我们有很高的可能性观测到用户会喜欢与A相似的条目B(Item CF)以及 相似的用户可能喜欢同一个条目。 在这个描述中,我们提到两个相似性:条目相似性 和 用户相似性。在协同过滤中,对于条目,我们可以使用标签、消费用户群体等的相似性来描述其相似性;对于用户,我们可以使用消费过的条目的相似性、性别、年龄、地区等参数来描述其相似性。可见,这里的相似性都是基于现实世界中具有实际意义的语义维度来定义的。在SVM(Support Vector Machine)中,我们需要在高维空间中重新调整坐标轴,以使得数据在新的空间中跟好分。这个思想和实践说明,调整后的空间和维度可以比现实世界中具有实际语义的空间和维度能更好地描述事物对象。也就是说,如果我们可以把事物的描述通过某种转换,变换到一个新的语义空间,可能会更好地描述事物的相似性。 隐语义模型(LFM)就是这样一种描述。在隐语义模型中,我们使用同样的维度来表征(Embedding)条目和用户。对于条目,这个表征就是条目表现出的对应维度的特征强度;对于用户,就是用户表现出的对对应维度特征的偏好强度。这样,我们让用户的表征向量乘以条目的表征向量(数量积),就可以得到用户对该条目的偏好描述 [1] .