分享

《高级机器学习》第四讲 矩阵分解与推荐

 汉无为 2022-11-20 发布于湖北

本课程来自清华大学计算机系唐杰老师。

授课教师主页:http://keg.cs./jietang/  

课程主页:https://www./aml

1 引言

  • 在推荐系统中,面临这样的问题:用户对某些商品给与了评分,对另外的商品无评分,如何给用户推荐适合他们的商品。反应在数据集上情况如下,用户对于电影的打分。

图片

  • 那么如何预测用户对全部电影的打分呢?

    • 如果使用简单的均方根作为目标函数,把预测当作回归任务,会出现训练数据不完全(用户不会对所有电影都有打分),数据量较大可能导致无法收敛。
    • 正确的做法是将电影条目归类,分析个体用户喜好电影的类别,进行类别电影的推荐。

图片

  • 推荐系统的数据集,长为如下形式。列为某用户,行为商品条目

图片

  • 对数据的分析可通过矩阵分解来进行

图片

  • 从隐变量的角度来说,不同的电影位于特征(主题)子空间的不同位置

图片

  • 缺失数据可通过矩阵分解后的对应向量内积进行复原

图片

2 正式表述

  • 矩阵分解是线性代数中一类算法,通常将一个矩阵分解为两个矩阵的乘积

图片

  • 衡量分解近似情况

    • 平方损失:
    • 散度:
  • 约束、正则项:为了引入一些先验知识。

    • 非负矩阵分解
    • 标准正交、正交
    • 范数:稀疏性
    • 范数:鲁棒性
    • 核范数:低秩性
  • 矩阵分解问题的一般形式:损失函数、正则项、约束条件

    • s.t.

3 模型

  • 奇异值分解(SVD)与非负矩阵分解(NMF)

3.1 隐语义分析

图片

  • 实现步骤:降秩SVD
    • 1 对输入矩阵进行SVD分解
    • 2 将除了最大的个奇异值以外其他奇异值置0
    • 3 产生对原始数据降维到维的结果
    • 4 这就是“语义空间”
  • 可在语义空间中计算余弦相似度

3.2 非负矩阵分解

  • NMF将一个非负矩阵分解为两个非负矩阵的乘积

  • NMF最显著特点是非负约束

  • NMF在优化时,目标函数是非凸的。但是对于分解后的变量分别都是凸的,经典的做法是交替优化矩阵找到一个局部极小值。

  • NMF的两种迭代公式

图片

图片

  • 为什么要非负约束?

    • 文本:词语的TFIDF
    • 信号:能量
    • 图像:颜色的直方图
    • 许多数据的特征是非负的
  • 从人主观角度来讲,正值比较合理;从算法角度来讲,非负是个糟糕的约束。

  • NMF与SVD在评分预测任务上的表现

    • 在进一步考虑用户偏置、电影条目偏置、时变因素等影响下,评分预测误差不断减小
    • 图片

图片

3.3 概率解释:贝叶斯概率矩阵分解

  • Aldous-Hoover 分解:将用户与条目分布都假设为高斯分布,评分是二者的内积。

    • 评分:
    • 隐含因子:
  • 概率矩阵分解方面的进展

    • 在隐含因子的分布参数上引入先验分布;
    • 常用Wishart分布和高斯分布的共轭关系;
    • 推断(吉布斯采样):分别采样用户因子,电影条目因子、超参数。

图片

3.4 稀疏编码

  • 稀疏编码也叫作字典学习,假设分解后的矩阵有一个是稀疏的,图示与分解目标函数如下

图片

目标函数中的范数是对零范数(矩阵非零元素个数)的凸松弛。此时目标函数关于是凸的,关于是非凸的,分别更新两个变量进行优化时,更新比较简单,更新比较复杂。目标函数为关于的二次函数与绝对值的和。此时要进行分类讨论,得出的结果即是常用的软阈值(Soft Thresholding)函数,当仅考虑第列、第时更新规则如下:

图片

  • 为什么需要稀疏性?

    • 节省内存与计算时间
    • 数据本身可能就有稀疏性结构,人类也倾向于从数据中提取稀疏性结构。

3.5 分解机

  • 分解机Factorization Machines , FMs由上述分解模型演变而来;

  • 每个数据点有一个特征值(向量)和一个目标值(打分)

  • FMs通过建模二阶特征交互克服稀疏性(这句我也不知道什么意思FMs model second-order feature interaction to overcome the sparsity.  )。

  • 公式化描述:

    • FMs自由度为2时,公式如下(

    • 模型参数:

    • FMs处理实值输入;

    • FMs公式中包括输入的特征交叉项(类似于多项式拟合)

    • 参数量为,而不是多项式拟合中的

  • FMs与矩阵分解

  • FMs计算复杂度:,在高效算法中,可降低至。考虑稀疏性,计算复杂度可进一步降低。

  • 降低计算复杂度的方式:

图片

  • 优化算法:
    • 随机梯度下降
    • 迭代最小二乘,坐标下降法

FMs的应用

  • FMs适合于以下机器学习问题:

    • 在大规模数据集上,只取某些离散值
    • 数据集较大
    • 输入值向量维度之间有关联时
  • 推荐系统、点击率预测、社交网络连接预测。

FMs总结

  • FMs是带有交叉项多项式回归模型;
  • FMs结合了标准机器学习方法的一般性与分解模型的预测准确性;
  • FMs可高效计算。

3.6 推荐系统中与矩阵分解相关的神经网络模型

  • 将以上分解模型结合上深度学习,有一下两类代表性的方法
    • 1 表示学习方法

图片

  •             2 匹配函数学习方法

图片

  • 第一种方法将矩阵分解与深度学习结合,代表性的工作有
    • DeepMF: Deep Matrix Factorization (Xue et al, IJCAI’17)
    • MF as a Neural Network (Wang et al, SIGIR’17)
  • 第二种方法是直接用一个神经网络来预测用户对商品条目的打分,替代了第一种方法中的内积。代表性的工作有:
    • NeuMF: Neural Matrix Factorization (He et al, WWW’17)
    • NNCF: Neighbor-based NCF (Bai et al, CIKM’17)

3.7 FMs能与深度学习相结合吗?

  • 受FM的启发,神经FM(NFM)对特征嵌入的维度之间关系进行建模。代表工作为:

    • NFM: Neural Factorization Machine (He and Chua, SIGIR’17)

图片

    在双线性交互池化层中使用如下前向传播公式

  • 小结:

    • 协同过滤中的深度学习算法包括

      用户/条目 表示学习

      匹配函数学习

    • 基于特征的推荐深度学习算法中,交叉特征性是比较重要的。

3.8 课程剩余部分

  • 本节课剩余部分为唐杰老师发表相关文章讲解,包括半监督学习联合训练应用于推荐系统、建模游戏社交网络中玩家的氪金行为,感兴趣的读者可自行阅读。
    • M. Zhang, J. Tang, X. Zhang, X. Xue. Addressing Cold Start in Recommender Systems: A Semi-supervised Co-training Algorithm. SIGIR'14, pp. 73-82.
    • Z. Fang, X. Zhou, J. Tang, W. Shao, A.C.M. Fong, L. Sun, Y. Ding, L. Zhou, and J. Luo. Modeling Paying Behavior in Game Social Networks. CIKM'14, pp. 411-420.

4 参考文献

  • https://www.ismll./aktuelles/tutorial-factorizationmodels-part2.pdf

  • http://staff.ustc.edu.cn/~hexn/icmr18-recsys.pdf

  • Steffen Rendle,“Factorization Machines,” in ICDM’10, Sydney, Australia.

  • Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. Neural collaborative filtering. In WWW 2017.

  • Xiangnan He, and Tat-Seng Chua. Neural factorization machines fo人sparse predictive analytics. In SIGIR 2017.

  • Ting Bai, Ji-Rong Wen, Jun Zhang, and Wayne Xin Zhao. A Neural Collaborative Filtering Model with Interaction-based Neighborhood. In CIKM 2017.

  • Hong-Jian Xue, Xin-Yu Dai, Jianbing Zhang, Shujian Huang, and Jiajun Chen. Deep matrix factorization models for recommender systems. IJCAI 2017.

  • Alex Beutel, Paul Covington, Sagar Jain, Can Xu, Jia Li, Vince GaMo, and Ed H. Chi. 2018. Latent Cross: Making Use of Context in Recurrent Recommender Systems. In WSDM 2018.

  • Xiang Wang, Xiangnan He, Liqiang Nie, and Tat-Seng Chua. Item silk road: Recommending items from information domains to social users. In SIGIR 2017

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多