16 推荐系统

16 推荐系统

16.1 问题形式化

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，用户数量
$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，电影数量

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 用户 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 的特征向量
$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 电影 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 的特征向量

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 用户 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 评分的电影数量

16.2 开胃菜：基于内容的推荐系统

要推荐，先要知道用户喜欢什么，基于该用户已经评分的电影，去预测他对未评分电影可能的评分，如果评分高，就可以推荐给他。

基于内容的推系统必须预先知道要推荐的东西——电影的特征向量
除图片中的特征

x_{1}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 、

x_{2}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 以外，设置特征

x_{0} = 1

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
则

x^{(1)} = [\begin{matrix} 1 \\ 0.9 \\ 0 \end{matrix}]

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
特征数为n=2，则

θ^{(j)} = R^{n + 1}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，即

R^{3}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
则预测用户

j

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 对电影

i

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 的评分：

(θ^{(j)})^{T} x^{(i)}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
对单个的用户

j

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 而言，这个一个线性回归问题，问题的关键在于学习到参数

θ^{(j)}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$

模型：

(θ^{(j)})^{T} x^{(i)}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
最小化：

m i n_{θ^{(j)}} \frac{1}{2 m^{(j)}} \sum_{i : r (i, j) = 1} [(θ^{(j)})^{T} x^{(i)} - y^{(i, j)}]^{2} + \frac{λ}{2 m^{(j)}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$

为了便于计算，去掉用户 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 评分的电影数量：

m i n_{θ^{(j)}} \frac{1}{2} \sum_{i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
对于所有用户：

m i n_{θ^{(1)}, . . ., θ^{(n_{u})}} \frac{1}{2} \sum_{j = 1}^{n_{u}} \sum_{i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
即代价函数：

J (θ^{(1)}, . . ., θ^{(n_{u})}) = \frac{1}{2} \sum_{j = 1}^{n_{u}} \sum_{i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
最小化代价函数
梯度下降：

θ_{k}^{(j)} := θ_{k}^{(j)} - α \sum_{i; r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i)}) x_{k}^{(i)}, (f o r k = 0)

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$

θ_{k}^{(j)} := θ_{k}^{(j)} - α (\sum_{i; r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i)}) x_{k}^{(i)} + λ θ_{k}^{(j)}), (f o r k \neq 0)

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$

16.3 正餐：协同过滤collaborative filtering

基于内容的推荐系统必须预先对每一部电影都人为的给定一个特征向量，绝无可能把每部电影看完然后再做推荐系统。所以现实中面临的局面是：

没有电影的特征向量
也没有用户的特征向量
仅有用户对部分电影的评分
即：

(θ^{(1)})^{T} x^{(1)} = 5 = y^{(1, 1)}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$

现在：
假设已知用户特征向量 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，去学习 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ :

m i n_{x^{(i)}} \frac{1}{2} \sum_{j : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
推广到所有电影：

m i n_{x^{(i)}} \frac{1}{2} \sum_{i = 1}^{n_{m}} \sum_{j : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$

结合16.2，给出 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，就能得到 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，反过来，给出 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，就能得到 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 。但我们都没有，只有movie ratings电影评分。
那么，随机给定 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，然后：

θ \to x \to θ \to x . . .

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
这就是基本的协同过滤算法，根据每一个用户对一部分电影的评分，通过不断的优化

θ

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 和

x

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，预测用户对电影的评分

16.4 再升级：实用算法

改进：
代价函数包含所有参数，同时优化 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 和 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ :
$J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}) = \frac{1}{2} \sum_{(i, j) : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} + \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}$ $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
$m i n_{x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}} J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})})$ $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
优点：
1. 同时优化，不需要再反复计算，即，不需要 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
2. 不再添加 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ， $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ， $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
算法
1. 初始化，用小的随机数初始化 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
2. 最小化代价函数，用梯度下降（或其他高级优化算法）
  for every $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ :
  $θ_{k}^{(j)} := θ_{k}^{(j)} - α (\sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i)}) x_{k}^{(i)} + λ θ_{k}^{(j)})$ $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
  $x_{k}^{(i)} := x_{k}^{(i)} - α (\sum_{j : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i)}) θ_{k}^{(j)} + λ x_{k}^{(i)})$ $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
3. 对于一个用户对某一部电影的评分，用户特征为 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，电影特征为 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，则预测该用户对该电影的评分为：
  $θ^{T} x$ $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
16.5 向量化：低秩矩阵分解

将用户对电影的评分情况写成矩阵：

以及预测值矩阵：

那么可以将预测值矩阵做低秩矩阵分解：
$[\begin{matrix} (x^{(1)})^{T} \\ ⋮ \\ (x^{(n_{m})})^{T} \end{matrix}]$

$[\begin{matrix} (θ^{(1)})^{T} \\ ⋮ \\ (θ^{(n_{m})})^{T} \end{matrix}]$

则predicted ratings =

16.5(2) 相似性：推荐

电影 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 和电影 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 的相似性：
$‖ \begin{matrix} x^{(i)} - x^{(j)} \end{matrix} ‖$ $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
如果小，则相似
如果用户现在在看电影 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，可以找5部 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 最小的电影甩到推荐页面上。
$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 也是一种推荐手段

16.6 细节：均值归一化

如果一个人，刚注册，还没有给任何电影评分，我们怎么去推荐？

利用16.4协同过滤算法，代价函数的第一部分为0（没有标签y），正则化部分将用户5的特征最小化为 $θ^{(5)} = [\begin{matrix} 0 \\ 0 \end{matrix}]$ $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
则由 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，预测用户5对所有的电影评分均为0。
没有办法进行推荐。
用均值归一化解决。
解决的思路就是假定该用户是大众口味，大家喜欢的，他也喜欢。
均值归一化

其中， $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 为电影的均值，右侧是原始的评分矩阵减去均值。
那么，在预测user j on movie i的评分时，应该是：
$(θ^{(j)})^{T} x^{(i)} + μ^{(i)}$ $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
那么新用户的评分就是均值 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 。