特征分解

CTR预估模型——FM、FFM、DeepFM

北战南征 提交于 2019-11-30 21:05:40
一、CTR(Click Through Rate,点击率)   点击率(click-through rate, CTR) 是点击特定链接的用户与查看页面,电子邮件或广告的总用户数量之比。它通常用于衡量某个网站的在线广告活动是否成功,以及电子邮件活动的有效性,是互联网公司进行流量分配的核心依据之一。   无论使用什么类型的模型,点击率这个命题可以被归纳到二元分类的问题,我们通过单个个体的特征,计算出对于某个内容,是否点击了,点击了就是1,没点击就是0。对于任何二元分类的问题,最后我们都可以归结到逻辑回归上面。 早期的人工特征工程 + LR(Logistic Regression):这个方式需要大量的人工处理,不仅需要对业务和行业有所了解,对于算法的经验要求也十分的高。 GBDT(Gradient Boosting Decision Tree) + LR:提升树短时这方面的第二个里程碑,虽然也需要大量的人工处理,但是由于其的可解释性和提升树对于假例的权重提升,使得计算准确度有了很大的提高。 FM-FFM:FM和FFM模型是最近几年提出的模型,并且在近年来表现突出,分别在由Criteo和Avazu举办的CTR预测竞赛中夺得冠军,使得到目前为止,还都是以此为主的主要模型占据主导位置。 Embedding模型可以理解为FFM的一个变体。   CTR预估技术从传统的Logistic回归

推荐系统| 基于协同过滤

坚强是说给别人听的谎言 提交于 2019-11-29 23:55:12
基于协同过滤的推荐算法 协同过滤(Collaborative Filtering,CF) 基于近邻的协同过滤     基于用户(User-CF)     基于物品(Item-CF) 基于模型的协同过滤     奇异值分解(SVD)     潜在语义分析(LSA)     支撑向量机(SVM) 1. 协同过滤CF的推荐 基于内容(Content based,CB)主要利用的是用户评价过的物品的内容特征,而CF方法还可以利用其他用户评分过的物品内容 CF 可以解决 CB 的一些局限     物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐     CF基于用户之间对物品的评价质量,避免了CB仅依赖内容可能造成的对物品质量判断的干扰     CF推荐不受内容限制,只要其他类似用户给出了对不同物品的兴趣,CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系) 分为两类:基于近邻和基于模型 2. 基于近邻的推荐 基于近邻的推荐系统根据的是相同“口碑”准则 是否应该给Cary推荐《泰坦尼克号》? 基于用户的协同过滤(User-CF) 基于用户的协同过滤推荐的基本原理是,根据所有用户对物品的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,并推荐近邻所偏好的物品 在一般的应用中是采用计算“K- 近邻”的算法;基于这 K 个邻居的历史偏好信息,为当前用户进行推荐 User

论文阅读 - Matrix Factorization Techniques for Recommender Systems

不打扰是莪最后的温柔 提交于 2019-11-29 21:38:39
本文为阅读 MF 经典论文 Matrix Factorization Techniques for Recommender Systems 的笔记。 推荐系统算法 从推荐系统做推荐的依据,大体上可以将推荐系统分为两种: 基于内容 协同过滤 基于内容的推荐算法 对于用户,根据个人身份信息或者回答相关问题,来构造用户的特征。对于物品,则根据物品自身的内容,或属性来构造特征。例如电影,其特征可以是类型、风格、参演演员等等。有了用户信息和物品信息之后,将两者特征向量化,然后用某种策略,来给各个用户匹配合适的物品。 基于内容的推荐系统,需要较多的领域知识。用户和物品的特征需要针对不同场景来选择和设计。 协同过滤推荐算法 协同过滤算法依赖于用户过去的行为信息,过去的购买记录、点赞记录、评分等等。协同过滤类的算法往往和领域无关,因为它不直接分析用户和物品自身的属性,只是基于用户与物品之间的交互信息(用户行为)来生成推荐。 协同过滤算法又可分为两大类: 1. Neighborhood methods 这类方法会寻找相似用户或相似物品,以相似关系为依据来生成推荐。包括 Item-based CF 和 User-based CF 两类。 2. Latent factor models latent factor models 也基于 user-item 评分矩阵,但它并不用此矩阵来计算 user 或

从模型到应用,一文读懂因子分解机

拈花ヽ惹草 提交于 2019-11-29 07:49:19
作者丨gongyouliu 编辑丨Zandy 来源 | 大数据与人工智能(ID: ai-big-data) 作者在上篇文章中讲解了《 矩阵分解推荐算法 》,我们知道了矩阵分解是一类高效的嵌入算法,通过将用户和标的物嵌入低维空间,再利用用户和标的物嵌入向量的内积来预测用户对标的物的偏好得分。本篇文章我们会讲解一类新的算法: 因子分解机 ( Factorization Machine ,简称 FM ,为了后面书写简单起见,中文简称为 分解机 ),该算法的核心思路来源于矩阵分解算法,矩阵分解算法可以看成是分解机的特例 (我们在第三节1中会详细说明) 。分解机自从2010年被提出后,由于易于整合交叉特征、可以处理高度稀疏数据,并且效果不错,在推荐系统及广告CTR预估等领域得到了大规模使用,国内很多大厂(如美团、头条等)都用它来做推荐及CTR预估。 本篇文章我们会从 分解机简单介绍、分解机的参数估计与模型价值、分解机与其他模型的关系、分解机的工程实现、分解机的拓展、近实时分解机、分解机在推荐上的应用、分解机的优势 等8个方面来讲解分解机相关的知识点。期望本文的梳理可以让读者更好地了解分解机的原理和应用价值,并且尝试将分解机算法应用到自己的业务中。 一、分解机简单介绍 分解机 最早由Steffen Rendle于2010年在ICDM会议(Industrial Conference on

Use of Deep Learning in Modern Recommendation System: A Summary of Recent Works(笔记)

久未见 提交于 2019-11-28 13:04:54
   注意:论文中,很多的地方出现baseline,可以理解为参照物的意思,但是在论文中,我们还是直接将它称之为基线, 也 就是对照物,参照物. 这片论文中,作者没有去做实际的实验,但是却做了一件很有意义的事,他收罗了近些年所有推荐系统中涉及到深度学习的文章 ,并将这些文章进行分类,逐一分析,然后最后给出了一个推荐系统以后的发展方向的预估. 那么通过这篇论文,我们可以较为 系统的掌握这些年,在推荐系统方面,深度学习都有那些好玩的应用,有哪些新奇的方法,这片论文起到了一个简报的作用,下面是论文的一个粗糙翻译: 概述:   随着互联网上数字信息量的急剧增加,在线商店、在线音乐、视频和图像库、搜索引擎和推荐系统已经成为在短时间内查找 相关信息的最方便的方式。近年来,深度学习在语音识别、图像处理和自然语言处理等领域得到了广泛的关注。同时,最近的一 些研究也显示了深度学习在推荐系统和信息检索领域的应用。近年来,深度学习在语音识别、图像处理和自然语言处理等领域得 到了广泛的关注。同时,最近的一些研究也显示了深度学习在推荐系统和信息检索领域的一些应用。在这个简短的回顾中,我们 涵盖了最近在使用各种不同的深度学习技术在推荐领域取得的进展。我们将综述分为三个部分:协作系统、基于内容的系统和混 合系统。本文还讨论了深度学习集成推荐系统在多个应用领域中的贡献

召回:矩阵分解

心不动则不痛 提交于 2019-11-28 03:45:28
(1)SVD(Singular value decomposition):奇异值分解,矩阵分解的算法之一。 在数据分析中的输入矩阵A一般是非奇异矩阵,而使用SVD可将A分解成一个对角阵B,形式如下: A = P B Q 这里的B是不带有隐特征的,但由于SVD计算量太大,一般都用MF模型 (2)MF(Matrix Factorization):也是一种矩阵分解。形式如下: A = (P的转置)Q 隐特征在P和Q之内 (3)FM(Factorization Machine): FM模型是用于推荐系统的一种新提出来的推荐模型,用于预测用户对某个该用户没有选择过的项目的评分,依据评分的高低针对用户进行推荐。FM模型也是一种有监督的学习过程,也就是说要有训练集,通过训练集的数据进行参数训练来得到模拟推荐的模型的最优。 隐特征在(Vi,Vj)中 来源: https://blog.csdn.net/woshiliulei0/article/details/99978276