预测模型

CTR预估模型——FM、FFM、DeepFM

北战南征 提交于 2019-11-30 21:05:40
一、CTR(Click Through Rate,点击率)   点击率(click-through rate, CTR) 是点击特定链接的用户与查看页面,电子邮件或广告的总用户数量之比。它通常用于衡量某个网站的在线广告活动是否成功,以及电子邮件活动的有效性,是互联网公司进行流量分配的核心依据之一。   无论使用什么类型的模型,点击率这个命题可以被归纳到二元分类的问题,我们通过单个个体的特征,计算出对于某个内容,是否点击了,点击了就是1,没点击就是0。对于任何二元分类的问题,最后我们都可以归结到逻辑回归上面。 早期的人工特征工程 + LR(Logistic Regression):这个方式需要大量的人工处理,不仅需要对业务和行业有所了解,对于算法的经验要求也十分的高。 GBDT(Gradient Boosting Decision Tree) + LR:提升树短时这方面的第二个里程碑,虽然也需要大量的人工处理,但是由于其的可解释性和提升树对于假例的权重提升,使得计算准确度有了很大的提高。 FM-FFM:FM和FFM模型是最近几年提出的模型,并且在近年来表现突出,分别在由Criteo和Avazu举办的CTR预测竞赛中夺得冠军,使得到目前为止,还都是以此为主的主要模型占据主导位置。 Embedding模型可以理解为FFM的一个变体。   CTR预估技术从传统的Logistic回归

深度学习论文翻译解析(五):Siamese Neural Networks for One-shot Image Recognition

半世苍凉 提交于 2019-11-30 16:32:43
论文标题:Siamese Neural Networks for One-shot Image Recognition 论文作者: Gregory Koch Richard Zemel Ruslan Salakhutdinov 论文地址: https://www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf 声明:小编翻译论文仅为学习,如有侵权请联系小编删除博文,谢谢! 小编是一个机器学习初学者,打算认真研究论文,但是英文水平有限,所以论文翻译中用到了Google,并自己逐句检查过,但还是会有显得晦涩的地方,如有语法/专业名词翻译错误,还请见谅,并欢迎及时指出。 摘要   为机器学习应用程序学习一个好的特征的过程可能在计算上非常昂贵,并且在数据很少的情况下可能会变得困难。一个典型的例子就是一次学习设置,在这种情况下,我们必须仅给出每个新类的一个示例,就可以正确的做出预测。在本文中,我们探索了一种学习孪生神经网络的方法,该方法采用独特的结构自然对输入之间的相似性进行排名。一旦网络被调整好,我们就可以利用强大的判别功能,将网络的预测能力不仅用于新数据,而且适用于未知分布中的全新类别。使用卷积架构,我们可以在单次分类任务上获得近乎最先进的性能,从而超过其他深度学习模型的强大结果。   人类展现出强大的获取和识别新模式的能力。特别是,我们观察到

自然语言处理的发展历程

女生的网名这么多〃 提交于 2019-11-30 02:01:22
NLP的发展趋势:规则—>统计—>深度学习。 自然语言处理的发展大致经历了4个阶段:1956年以前的萌芽期;1957-1970年的快速发展期;1971 -1993年的低谷的发展期和1994年至今的复苏融合期。 一、萌芽期(1956年以前) 1956年以前,可以看作自然语言处理的基础研究阶段。一方面,人类文明经过了几千年的发展,积累了大量的数学、语言学和物理学知识。这些知识不仅是计算机诞生的必要条件,同时也是自然语言处理的理论基础。另一方面,阿兰·图灵在1936年首次提出了“图灵机”的概念。“图灵机”作为计算机的理论基础,促使了1946年电子计算机的诞生。而电子计算机的诞生又为机器翻译和随后的自然语言处理提供了物质基础。 由于来自机器翻译的社会需求,这一时期也进行了许多自然语言处理的基础研究。1948年Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机。接着,他又把热力学中“熵”(entropy)的概念引用于语言处理的概率算法中。上世纪50年代初,Kleene研究了有限自动机和正则表达式。1956年,Chomsky又提出了上下文无关语法,并把它运用到自然语言处理中。他们的工作直接引起了基于规则和基于概率这两种不同的自然语言处理技术的产生。而这两种不同的自然语言处理方法,又引发了数十年有关基于规则方法和基于概率方法孰优孰劣的争执。 另外

推荐系统| 基于协同过滤

坚强是说给别人听的谎言 提交于 2019-11-29 23:55:12
基于协同过滤的推荐算法 协同过滤(Collaborative Filtering,CF) 基于近邻的协同过滤     基于用户(User-CF)     基于物品(Item-CF) 基于模型的协同过滤     奇异值分解(SVD)     潜在语义分析(LSA)     支撑向量机(SVM) 1. 协同过滤CF的推荐 基于内容(Content based,CB)主要利用的是用户评价过的物品的内容特征,而CF方法还可以利用其他用户评分过的物品内容 CF 可以解决 CB 的一些局限     物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐     CF基于用户之间对物品的评价质量,避免了CB仅依赖内容可能造成的对物品质量判断的干扰     CF推荐不受内容限制,只要其他类似用户给出了对不同物品的兴趣,CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系) 分为两类:基于近邻和基于模型 2. 基于近邻的推荐 基于近邻的推荐系统根据的是相同“口碑”准则 是否应该给Cary推荐《泰坦尼克号》? 基于用户的协同过滤(User-CF) 基于用户的协同过滤推荐的基本原理是,根据所有用户对物品的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,并推荐近邻所偏好的物品 在一般的应用中是采用计算“K- 近邻”的算法;基于这 K 个邻居的历史偏好信息,为当前用户进行推荐 User

test

℡╲_俬逩灬. 提交于 2019-11-29 21:56:52
PATTERN RCOGNITION AND MACHINE LEARNING(PRML) Introduction 引言: ​ 从一堆数据中挖掘一些可用的数据规则是由古至今科学家一直研究的问题,它有着悠久而成功的历史。 例如,16世纪对天文的广泛观测,使约翰内斯·开普勒发现了行星运动的三大定律,从而对古典力学的发展有了一定的促进作用。同样,在20世纪,原子光谱规律的发现,对早期量子物理学的发展发挥了关键作用。在计算机中, 模式识别领域是通过计算机算法自动发现数据中的规律,并利用这些规律采取行动,如将数据分类到不同的类别. ​ 例如识别手写数字的例子,如图1.1所示。 每个数字对应一个28×28像素的图像,因此可以用包含784个实数的向量x表示。 我们的目标是建立一个机器算法,它将以这样一个向量x作为输入,并将产生数字0到 9作为输出。 这是一个非常重要的问题,因为笔迹的多样性很大。 我们可以根据手工的方式或者启发式的方案,根据笔画的形状来区分数字 ,但在实践中,这种方法会导致规则和规则例外的激增,导致结果总是不好. ​ 采用机器学习的方法可以得到更好的结果,其中一个大的集合{x1,…, xN}称为训练集,用于调整自适应模型的参数。 训练集中数字的类别是预先知道的,通常通过逐个检查并手工标记它们。 我们可以用目标向量t表示一个数字的类别,它表示对应数字的特定输出。

10.集成学习与随机森林

落花浮王杯 提交于 2019-11-29 17:35:27
1.什么是集成学习 什么是集成学习,以前我们都是使用一个算法来进行预测,难免会有"独断专行"的感觉。集成学习是将多个算法集成在一块,然后多个算法对同一个问题进行预测,然后少数服从多数,这便是集成学习。 我们生活中有很多集成学习的例子,比如买东西的时候看推荐,如果10个人推荐你买A产品,但是只有1个人推荐你买B产品,我们会更将倾向于买B产品。 我们看看sklearn是如何为我们提供集成学习的接口的。 from sklearn.datasets import make_moons from sklearn.model_selection import train_test_split from sklearn.ensemble import VotingClassifier # ensemble,与集成学习有关的模块 X, y = make_moons(n_samples=500, noise=0.3, random_state=666) X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666) from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC from sklearn.tree

机器学习常用的损失函数

纵然是瞬间 提交于 2019-11-29 14:28:40
分类损失函数 一、LogLoss对数损失函数(逻辑回归,交叉熵损失)   有些人可能觉得逻辑回归的损失函数就是平方损失,其实并不是。 平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到 ,而逻辑回归得到的并不是平方损失。在逻辑回归的推导中,它假设样本服从 伯努利分布(0-1分布) ,然后求得满足该分布的似然函数,接着取对数求极值等等。而逻辑回归并没有求似然函数的极值,而是把极大化当做是一种思想,进而推导出它的经验风险函数为: 最小化负的似然函数(即max F(y, f(x)) —> min -F(y, f(x))) 。从损失函数的视角来看,它就成了log损失函数了。 log损失函数的标准形式 :   刚刚说到,取对数是为了方便计算极大似然估计,因为在MLE(最大似然估计)中,直接求导比较困难,所以通常都是先取对数再求导找极值点。损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下,使概率P(Y|X)达到最大值(换言之, 就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大 )。因为log函数是单调递增的,所以logP(Y|X)也会达到最大值,因此在前面加上负号之后,最大化P(Y|X)就等价于最小化L了。   逻辑回归的P(Y=y|x)表达式如下(为了将类别标签y统一为1和0

python调用scikit-learn机器学习

天涯浪子 提交于 2019-11-29 11:20:05
不支持深度学习和强化学习 numpy介绍: np.eye(n)生成一个n维单元数组 数据预处理: iris数据加载 from sklearn import datasets iris = datasets.load_iris() 数据展示 显示iris的信息 print(iris.data) [[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] …… [5. 3.6 1.4 0.2] [5.4 3.9 1.7 0.4] [4.6 3.4 1.4 0.3]] 每列数据表示不同样本同一属性下对用的数值 print(iris.feature_names) ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] 输出目标结果 print(iris.target) [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

文献阅读笔记 - Social Ways

丶灬走出姿态 提交于 2019-11-29 10:11:14
文献引用 Amirian J, Hayet J B, Pettre J. Social Ways: Learning Multi-Modal Distributions of Pedestrian Trajectories with GANs[J]. 2019. 文章是继Social LSTM、Social GAN模型后的进一步提升,在理想的监控俯瞰数据库ETH、UCY上进行数据的预测。 重点贡献 有: 引入了注意力机制使模型自主分配对交互信息的关注。 增强模型对多合理轨迹的预测能力。 提供了一种能够验证各模型的多轨迹预测能力的小型合成场景和轨迹生成效果的判断指标。 模型框架 如上图所示,文章的基本框架是GAN网络,在不考虑batch批处理的情况下,模型逐一为每个行人预测轨迹。 在Generator中,对于待预测行人 \(i\) ,首先会将所有行人的已知轨迹进行编码,而后基于 \(i\) 和其他行人之间的地理和运动信息,引入注意力机制使得模型对其他行人的交互信息自主适应。行人 \(i\) 的轨迹编码、注意力池化后的交互信息、噪音、latent code(新引入内容,之后会讲到)四种输入作为Decoder的输入,解码出行人 \(i\) 的预测轨迹。 在Discriminator中,会对生成轨迹/真实轨迹进行判别,判别的结果作为Generator/Discriminator的代价函数。

文献阅读笔记:Glyce2.0(Glyce: Glyph-vectors for Chinese Character Representations)

徘徊边缘 提交于 2019-11-29 10:10:46
0. 背景 机构:香侬科技 作者:Yuxian Meng*, Wei Wu* 发布地方:NeurIPS 2019 面向任务:Language Representation 论文地址:https://arxiv.org/pdf/1901.10125 论文代码:https://github.com/ShannonAI/glyce 0.1 摘要 对于表意文字(logographic,又称语素文字,在非正式场合又称象形文字)语言如中文,从直觉上来说,其NLP任务应该是能够从字形信息中受益。但是,由于象形文字中丰富的象形信息数据甚为匮乏,且标准计算机视觉模型对字符数据的泛化能力较弱,如何有效地利用象形文字信息还有待探索。本文提出Glyce来弥补这一缺憾,Glyce的字形向量是中文字符的一种表征。本文有如下3大创新: (1)使用中文的各种文字形式,比如青铜器上的汉字,篆书,繁体中文等 (2)设计CNN结构(田字格-CNN)以适用中文字符的图像处理 (3)引入图像分类作为多任务学习的辅助任务,通过该辅助任务有效地提升了模型的泛化能力 通过在一系列中文NLP任务上的实验,证明本文基于字形的模型能够超越基于word和基于char的模型,并在多个中文NLP任务如序列标注(包括NER、CWS、POS)、句子对分类、单句分类、依存分析和语义角色标注任务上刷新记录。在OntoNotes(NER数据集