第二章 利用用户数据
文章目录 第二章 利用用户数据 2.1 用户行为数据简介 2.2 用户行为分析 2.4 基于邻域的算法 基于用户的协同过滤 基于物品的协同过滤 2.5 隐语义模型(Latent factor model) 2.6 基于图的模型 第二章 利用用户数据 基于用户行为分析的推荐算法称作 协同过滤 算法 2.1 用户行为数据简介 用户行为数据最简单的存在形式是 日志 . 用户行为按反馈的明确性分为 显性反馈行为 和 隐性反馈行为 .如果按反馈的方向还可以分为 正反馈 和 负反馈 . 一个用户行为可以用6部分表示: 产生行为的用户,行为的对象,行为的种类,产生行为的上下文,行为的内容和权重. 按照反馈的明确性分,可分为显性反馈和隐性反馈 正反馈(用户喜欢该商品)和负反馈(用户不喜欢该商品) 2.2 用户行为分析 互联网上的很多数据分布都满足 长尾分布f(x)=ax^k ,也就是少部分物品占据了大多数出现次数 用户行为数据同时也满足长尾分布的规律,即物品流行度和用户活跃度均满足长尾分布。(物品流行度指对物品产生过行为的用户总数。用户活跃度指用户产生过行为的物品总数。)用公式表达即: fi(k)为被k个用户产生过行为的物品数;fu(k)为对k个物品产生过行为的用户数。 用户越活跃,越趋向于浏览冷门的物品. 学术界对协同过滤算法进入了深入研究,提出了很多方法,比如基于邻域的方法、隐含义模型