《高级机器学习》第四讲矩阵分解与推荐

汉无为 2022-11-20 发布于湖北

展开全文

本课程来自清华大学计算机系唐杰老师。

授课教师主页：http://keg.cs./jietang/

课程主页：https://www./aml

1 引言

在推荐系统中，面临这样的问题：用户对某些商品给与了评分，对另外的商品无评分，如何给用户推荐适合他们的商品。反应在数据集上情况如下，用户对于电影的打分。

那么如何预测用户对全部电影的打分呢？

如果使用简单的均方根作为目标函数，把预测当作回归任务，会出现训练数据不完全(用户不会对所有电影都有打分)，数据量较大可能导致无法收敛。
正确的做法是将电影条目归类，分析个体用户喜好电影的类别，进行类别电影的推荐。

推荐系统的数据集，长为如下形式。列为某用户，行为商品条目

对数据的分析可通过矩阵分解来进行

从隐变量的角度来说，不同的电影位于特征(主题)子空间的不同位置

缺失数据可通过矩阵分解后的对应向量内积进行复原

2 正式表述

矩阵分解是线性代数中一类算法，通常将一个矩阵分解为两个矩阵的乘积

衡量分解近似情况

平方损失：
散度：

约束、正则项：为了引入一些先验知识。

非负矩阵分解
标准正交、正交
范数：稀疏性
范数：鲁棒性
核范数：低秩性

矩阵分解问题的一般形式：损失函数、正则项、约束条件

s.t.

3 模型

奇异值分解(SVD)与非负矩阵分解(NMF)

3.1 隐语义分析

实现步骤：降秩SVD

1 对输入矩阵进行SVD分解
2 将除了最大的个奇异值以外其他奇异值置0
3 产生对原始数据降维到维的结果
4 这就是“语义空间”

可在语义空间中计算余弦相似度

3.2 非负矩阵分解

NMF将一个非负矩阵分解为两个非负矩阵的乘积
NMF最显著特点是非负约束
NMF在优化时，目标函数是非凸的。但是对于分解后的变量分别都是凸的，经典的做法是交替优化矩阵找到一个局部极小值。
NMF的两种迭代公式

为什么要非负约束？

文本：词语的TFIDF
信号：能量
图像：颜色的直方图
许多数据的特征是非负的

从人主观角度来讲，正值比较合理；从算法角度来讲，非负是个糟糕的约束。
NMF与SVD在评分预测任务上的表现

在进一步考虑用户偏置、电影条目偏置、时变因素等影响下，评分预测误差不断减小

3.3 概率解释：贝叶斯概率矩阵分解

Aldous-Hoover 分解：将用户与条目分布都假设为高斯分布，评分是二者的内积。

评分：
隐含因子：

概率矩阵分解方面的进展

在隐含因子的分布参数上引入先验分布；
常用Wishart分布和高斯分布的共轭关系；
推断(吉布斯采样)：分别采样用户因子，电影条目因子、超参数。

3.4 稀疏编码

稀疏编码也叫作字典学习，假设分解后的矩阵有一个是稀疏的，图示与分解目标函数如下

目标函数中的范数是对零范数(矩阵非零元素个数)的凸松弛。此时目标函数关于是凸的，关于是非凸的，分别更新两个变量进行优化时，更新比较简单，更新比较复杂。目标函数为关于的二次函数与绝对值的和。此时要进行分类讨论，得出的结果即是常用的软阈值(Soft Thresholding)函数，当仅考虑第列、第行时更新规则如下：

为什么需要稀疏性？

节省内存与计算时间
数据本身可能就有稀疏性结构，人类也倾向于从数据中提取稀疏性结构。

3.5 分解机

分解机Factorization Machines , FMs由上述分解模型演变而来；
每个数据点有一个特征值(向量)和一个目标值(打分)
FMs通过建模二阶特征交互克服稀疏性（这句我也不知道什么意思FMs model second-order feature interaction to overcome the sparsity. ）。
公式化描述：

FMs自由度为2时，公式如下（）
模型参数：
FMs处理实值输入；
FMs公式中包括输入的特征交叉项（类似于多项式拟合）
参数量为，而不是多项式拟合中的

FMs与矩阵分解
FMs计算复杂度：，在高效算法中，可降低至。考虑稀疏性，计算复杂度可进一步降低。
降低计算复杂度的方式：

优化算法：

随机梯度下降
迭代最小二乘，坐标下降法

FMs的应用

FMs适合于以下机器学习问题：

在大规模数据集上，只取某些离散值
数据集较大
输入值向量维度之间有关联时

推荐系统、点击率预测、社交网络连接预测。

FMs总结

FMs是带有交叉项多项式回归模型；
FMs结合了标准机器学习方法的一般性与分解模型的预测准确性；
FMs可高效计算。

3.6 推荐系统中与矩阵分解相关的神经网络模型

将以上分解模型结合上深度学习，有一下两类代表性的方法

1 表示学习方法

2 匹配函数学习方法

第一种方法将矩阵分解与深度学习结合，代表性的工作有

DeepMF: Deep Matrix Factorization (Xue et al, IJCAI’17)
MF as a Neural Network (Wang et al, SIGIR’17)

第二种方法是直接用一个神经网络来预测用户对商品条目的打分，替代了第一种方法中的内积。代表性的工作有：

NeuMF: Neural Matrix Factorization (He et al, WWW’17)
NNCF: Neighbor-based NCF (Bai et al, CIKM’17)

3.7 FMs能与深度学习相结合吗？

受FM的启发，神经FM(NFM)对特征嵌入的维度之间关系进行建模。代表工作为：

NFM: Neural Factorization Machine (He and Chua, SIGIR’17)

在双线性交互池化层中使用如下前向传播公式

小结：

协同过滤中的深度学习算法包括
用户/条目表示学习
匹配函数学习
基于特征的推荐深度学习算法中，交叉特征性是比较重要的。

3.8 课程剩余部分

本节课剩余部分为唐杰老师发表相关文章讲解，包括半监督学习联合训练应用于推荐系统、建模游戏社交网络中玩家的氪金行为，感兴趣的读者可自行阅读。

M. Zhang, J. Tang, X. Zhang, X. Xue. Addressing Cold Start in Recommender Systems: A Semi-supervised Co-training Algorithm. SIGIR'14, pp. 73-82.
Z. Fang, X. Zhou, J. Tang, W. Shao, A.C.M. Fong, L. Sun, Y. Ding, L. Zhou, and J. Luo. Modeling Paying Behavior in Game Social Networks. CIKM'14, pp. 411-420.

4 参考文献

https://www.ismll./aktuelles/tutorial-factorizationmodels-part2.pdf
http://staff.ustc.edu.cn/~hexn/icmr18-recsys.pdf
Steffen Rendle,“Factorization Machines,” in ICDM’10, Sydney, Australia.
Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. Neural collaborative filtering. In WWW 2017.
Xiangnan He, and Tat-Seng Chua. Neural factorization machines fo人sparse predictive analytics. In SIGIR 2017.
Ting Bai, Ji-Rong Wen, Jun Zhang, and Wayne Xin Zhao. A Neural Collaborative Filtering Model with Interaction-based Neighborhood. In CIKM 2017.
Hong-Jian Xue, Xin-Yu Dai, Jianbing Zhang, Shujian Huang, and Jiajun Chen. Deep matrix factorization models for recommender systems. IJCAI 2017.
Alex Beutel, Paul Covington, Sagar Jain, Can Xu, Jia Li, Vince GaMo, and Ed H. Chi. 2018. Latent Cross: Making Use of Context in Recurrent Recommender Systems. In WSDM 2018.
Xiang Wang, Xiangnan He, Liqiang Nie, and Tat-Seng Chua. Item silk road: Recommending items from information domains to social users. In SIGIR 2017