推荐系统

推荐系统架构

匿名 (未验证) 提交于 2019-12-02 23:57:01
推荐系统架构 下图所示是业界推荐系统通用架构图,主要包括:底层基础数据、数据加工存储、召回内容、计算排序、过滤和展示、业务应用。 底层基础数据是推荐系统的基石,只有数据量足够多,才能从中挖掘出更多有价值的信息,进而更好地为推荐系统服务。底层基础数据包括用户和物品本身数据、用户行为数据、用户系统上报数据等。 召回内容 电商网站、内容网站、视频网站中数据量很大,并不能直接把所有的物品数据全部输送到推荐系统进行排序,那么如何对物品进行筛选就成了很关键的问题。第4章中介绍了一些常用的数据挖掘算法和应用场景,在进行物品召回时可以基于一些常用的机器学习算法构建用户偏好模型、用户兴趣模型、物品相似模型、物品互补模型等。在进行内容召回时,只召回和用户有偏好关系、和用户有直接关联、和用户有直接关系的相关物品,输入排序模型,进行打分排序。例如,在某新闻类网站中,根据用户对新闻的相关行为信息构建用户对新闻标签的兴趣模型,在为用户推荐时就可以推荐用户偏好标签下的新闻数据,如图14-5所示。 在物品召回过程中,重点是如何构建合适的用户偏好模型,只有保证偏好模型的准确性才能确保用户召回物品的准确性。 计算排序 特征工程 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,目的就是获取更好的训练数据特征

学习《用户网络行为画像》PDF+《社会媒体挖掘》PDF课件

匿名 (未验证) 提交于 2019-12-02 23:55:01
《用户网络行为画像:大数据中的用户网络行为画像分析与内容推荐应用》PDF,235页,带书签目录,文字可以复制。《用户故事地图》中文PDF,255页,带书签目录,文字可以复制。 《用户网络行为画像》PDF+《用户故事地图》PDF 下载: https://pan.baidu.com/s/1EWgxGXi4jzUPfm-iTpZ78g 提取码: 8kim 用户故事地图作为一种有效的需求工具,越来越广泛地应用于开发实践中。本书以用户故事地图为主题,强调以合作沟通的方式来全面理解用户需求,涉及的主题包括怎么以故事地图的方式来讲用户需求,如何分解和优化需求,如果通过团队协同工作的方式来积极吸取经验教训,从中洞察用户的需求,开发真正有价值的、小而美的产品和服务。适合产品经理、用户体验设计师、产品负责人、业务分析师、IT项目经理、敏捷教练和精益教练阅读和参考,也更适合用作企业培训手册,打造高效能的团队协作能力。 数据挖掘的理论知识可以用于挖掘社会媒体数据。社会媒体挖掘用于解决社会媒体数据的问题,涉及网络分析和数据挖掘的基本概念、新问题以及有效的算法。 社会媒体挖掘培养出了一类新的数据科学家(data scientist),这些科学家精通社会学和计算科学理论,能够分析棘手的社会媒体数据,并且熟练地运用已经掌握的技能和理论(社会学和计算科学理论)以及一些计算工具,帮助我们探索广阔的社会媒体世界。

推荐算法之去重策略

匿名 (未验证) 提交于 2019-12-02 23:51:01
一、背景 推荐系统中,有一个刚需就是去重,去重主要涉及两块: 1)内容源去重,即有些抓取的文章基本是讲的一件事。 2)给用户推荐的内容去重,即不能重复推荐。 对于第一种去重,可以采用Google公布的去重算法Simhash,该算法适合海量数据去重。对于常规的文本相似度计算,需要分词,组合成一个向量,不适合海里文本。 第二种去重可以采用BloomFilter算法,该算法与Bitmap位图算法有相似之处。 二、Simhash去重算法 simhash的核心思想是为每一篇文本生成一个整数表示的指纹,然后用这个指纹去进行去重或者相似度检测。对于一些主要内容不变,有一些不太重要的词句不同的文本,simhash仍然能够得到相似或者相同的指纹。 1、首先,对原始内容分词,得到每个词的权重 2、对每个词hash成一个整数,并且把这个整数对应的二进制中的0变成-1,1还是1。 3、每个词hash后的二进制向量乘以权重,形成新的加权向量。 4、把每个词的加权向量相加,得到最终的加权向量,这个向量中元素有正有负。 5、把最终的这个向量正值设置为1,负值设置为0,形成了一个二进制序列,也就最终变成了一个整数。

推荐系统之构建排行榜

匿名 (未验证) 提交于 2019-12-02 23:49:02
排行榜其实就是热门榜,在推荐系统中非常重要,细细嚼来,其中也蕴藏了不少学问。究竟有什么作用呢? 一、排行榜的作用 1)解决新用户的冷启动问题,当新用户来的时候,我们没有他的任何信息,这个时候可以将热点资讯或者物品推荐给他。 2)发现老用户兴趣的方式。老用户兴趣比较明确了,在享受个性化推荐的同时,也可以浏览一些热点的物品,从而发现用户的新兴趣。 转载请标明出处: 推荐系统之构建排行榜 文章来源: 推荐系统之构建排行榜

推荐

匿名 (未验证) 提交于 2019-12-02 23:42:01
高涵:用Processing制作一个「生态瓶」 链接: https://zhuanlan.zhihu.com/p/64726213 模拟实现了一个简单的生态系统。玩家可以以多种方式干涉,系统会根据设定的规则发展,直到最终系统死亡。 张帆:processing-洇 链接: https://www.kanvasesfan.me/?p=174 想法奇特,随机选取一幅画的某一颜色,每次扩散的颜色都是相近色,实现了类似颜色晕染的效果,艺术性很强。 周际翔:《Gravity》――融入动画技术的交互应用 链接: https://zhuanlan.zhihu.com/p/63700758 整个游戏是简单的几何图形构成,看起来十分简洁。利用手柄操作的交互方式颇为特殊。同时还配套了调试面板,可以让玩家自己设置参数。 转载请标明出处: 推荐 文章来源: https://blog.csdn.net/Fei_Yan5043/article/details/91576991

个性化推荐

丶灬走出姿态 提交于 2019-12-02 23:38:16
个性化推荐 本教程源代码目录在 book/recommender_system ,初次使用请您参考 Book文档使用说明 。 # 说明: 硬件环境要求: 本文可支持在CPU、GPU下运行 Docker镜像支持的CUDA/cuDNN版本: 如果使用了Docker运行Book,请注意:这里所提供的默认镜像的GPU环境为 CUDA 8/cuDNN 5,对于NVIDIA Tesla V100等要求CUDA 9的 GPU,使用该镜像可能会运行失败。 文档和脚本中代码的一致性问题: 请注意:为使本文更加易读易用,我们拆分、调整了train.py的代码并放入本文。本文中代码与train.py的运行结果一致,可直接运行 train.py 进行验证。 # 背景介绍 在网络技术不断发展和电子商务规模不断扩大的背景下,商品数量和种类快速增长,用户需要花费大量时间才能找到自己想买的商品,这就是信息超载问题。为了解决这个难题,个性化推荐系统(Recommender System)应运而生。 个性化推荐系统是信息过滤系统(Information Filtering System)的子集,它可以用在很多领域,如电影、音乐、电商和 Feed 流推荐等。个性化推荐系统通过分析、挖掘用户行为,发现用户的个性化需求与兴趣特点,将用户可能感兴趣的信息或商品推荐给用户。与搜索引擎不同

基于 Apache Mahout 构建社会化推荐引擎-实战

一笑奈何 提交于 2019-12-02 22:24:04
参考文章 IBM<<基于 Apache Mahout 构建社会化推荐引擎>>, 文章的链接: http://www.ibm.com/developerworks/cn/java/j-lo-mahout/ 安装条件: 1) JDK,使用1.6版本。 MyEclipse /Eclipse 2) Maven,使用2.0.11版本或以上。 3) Apache Mahout,使用0.5版本。 4) Tomcat 7.0 或者其他版本。 MySQL 以下会具体说明。 一、 Taste的安装与简单的 Demo 实现 下载得到Apache Mhout的发布版本。 http://mahout.apache.org/ 建议下载0.5版本 mahout-distribution-0.5-src.zip,解压缩。 下载Maven,并且配置环境,见 http://blog.csdn.net/highram/article/details/7190839 在MyEclipse或者Eclipse中构建Mahout,见 http://www.cnblogs.com/dlts26/archive/2011/09/13/2174889.html 启动jetty服务器: cmd 在 taste-web目录下敲命令:mvn jetty:run-war 输入url: http://localhost:8080/mahout

新闻推荐系统:基于内容的推荐算法――TFIDF、衰减机制(github java代码)

匿名 (未验证) 提交于 2019-12-02 21:53:52
转自: 因为开发了一个新闻推荐系统的模块,在推荐算法这一块涉及到了基于内容的推荐算法(Content-Based Recommendation),于是借此机会,基于自己看了网上各种资料后对该分类方法的理解,用尽量清晰明了的语言,结合算法和自己开发推荐模块本身,记录下这些过程,供自己回顾,也供大家参考~ Ŀ¼ 一、基于内容的推荐算法 + TFIDF 二、在推荐系统中的具体实现技巧 正文 一、基于内容的推荐算法 + TFIDF 主流推荐算法大致可分为: 基于内容(相似度)的推荐 基于用户/物品相似度的协同过滤 热点新闻推荐(你看到的那些头条新闻) 基于模型的推荐(通过输入一些用户特征进入模型,产生推荐结果) 混合推荐(以上十八般兵器一起耍!) (本文只详述基于内容的推荐,其它的推荐方法大家可以另行搜索。) 概念 基于内容相似度的推荐 :顾名思义,把与 你喜欢看 的新闻 内容相似 新闻推荐给你。基于内容的推荐算法的主要优势在于无冷启动问题,只要用户产生了初始的历史数据,就可以开始进行推荐的计算。而且随着用户的浏览记录数据的增加,这种推荐一般也会越来越准确。 这里有两个重要的关键点需要首先有个基本理解: 怎么知道用户喜欢看那些新闻; 用户有历史的浏览记录,我们可以从这些用户历史浏览的新闻中”提取”能代表新闻主要内容的关键词,看哪些关键词出现的最多。比如可以有”手机“,”电脑游戏“,”发布会

推荐系统系列(三):FNN理论与实践

我的梦境 提交于 2019-12-02 18:54:35
背景 在FM之后出现了很多基于FM的升级改造工作,由于计算复杂度等原因,FM通常只对特征进行二阶交叉。当面对海量高度稀疏的用户行为反馈数据时,二阶交叉往往是不够的,三阶、四阶甚至更高阶的组合交叉能够进一步提升模型学习能力。如何能在引入更高阶的特征组合的同时,将计算复杂度控制在一个可接受的范围内? 参考图像领域CNN通过相邻层连接扩大感受野的做法,使用DNN来对FM显式表达的二阶交叉特征进行再交叉,从而产生更高阶的特征组合,加强模型对数据模式的学习能力 [1]。这便是本文所要介绍的FNN(Factorization Machine supported Neural Network)模型,下面将对FNN进行详细介绍。 分析 1. FNN 结构 FNN的思想比较简单,直接在FM上接入若干全连接层。利用DNN对特征进行隐式交叉,可以减轻特征工程的工作,同时也能够将计算时间复杂度控制在一个合理的范围内。 为了加速模型的收敛,充分利用FM的特征表达能力, FNN采用了两阶段训练方式 。首先,针对任务构建FM模型,完成模型参数的学习。然后,将FM的参数作为FNN底层参数的初始值。这种两阶段方式的应用,是为了将FM作为先验知识加入到模型中,防止因为数据稀疏带来的歧义造成模型参数偏差。 However, according to [21], if the observational

个性化推荐算法综述

感情迁移 提交于 2019-12-02 18:54:24
目前,推荐系统广泛应用于电商、信息流和地图。工业级推荐系统架构一般以召回+推荐作为大框架。其中,以算法区分,如下图所示。 离线/线上指标如下图所示: 个性化召回算法是根据用户的属性行为上下文等信息从物品全集中选取其感兴趣的物品作为候选集,召回决定了最终推荐结果的天花板。 个性化召回分为以下几类: 基于用户行为的 基于user profile的 基于隐语义的 以算法为例,有以下算法: CF LFM Personal Rank Item2vec Content Based 个性化排序算法是将个性化召回的物品候选集根据物品本身的属性结合用户的属性,上下文等信息给出展现优先级的过程。 工业界推荐系统中一般采用粗排序->主排序->重排序的过程。 主排序分为以下几类: 单一的浅层模型 浅层模型的组合 深度学习模型 以算法为例,有以下算法: xgboost gbdt+lr wide and deep 下面,会分别记录其算法主要实现思路和过程。 来源: https://www.cnblogs.com/hellojamest/p/11758604.html