论文导读 | 综述：大模型与推荐系统

zjshzq 2024-03-17 发布于浙江

展开全文

｜导读｜

最近，预训练语言模型（PLM）在自然语言处理领域取得了巨大成功，并逐渐引入推荐系统领域。本篇推文介绍了最近的两篇预训练语言模型和推荐系统结合的综述：

[1] Pre-train, Prompt, and Recommendation: A Comprehensive Survey of Language Modeling Paradigm Adaptations in Recommender Systems

[2] Foundation Models for Recommender Systems: A Survey and New Perspectives

Pre-train, Prompt, and Recommendation: A Comprehensive Survey of Language Modeling Paradigm Adaptations in Recommender Systems

摘要

预训练语言模型（PLM）的出现在自然语言处理（NLP）领域取得了巨大的成功，它通过在大规模语料库上进行自监督学习，学习到了通用的表示方法。预训练模型和学到的表示对一系列下游NLP任务都有益处。最近，这种训练范式已经被应用到推荐领域，并被学术界和工业界视为一种有前途的方法。本文系统地研究了如何从不同的PLM相关训练范式学到的预训练模型中提取和转移知识，以从多个角度（如普适性、稀疏性、效率和效果）提高推荐性能。具体而言，我们提出了一个全面的分类法，将现有的基于PLM的推荐系统根据其训练策略和目标进行划分。然后分析和总结了PLM-based训练范式与推荐系统中不同输入数据类型之间的关系。最后详细阐述了这个充满活力领域中的开放问题和未来的研究方向。

引言

推荐系统在发现用户兴趣和减轻决策过程中的信息过载方面起着关键作用。近年来，基于深度神经架构和不断改进的计算基础设施的推荐系统取得了巨大成功。然而，深度推荐模型天生对数据需求量大，需要学习大量参数，当它们的训练数据（即用户-物品交互）不足时，很容易过拟合并且无法很好地推广到实际应用中。当大量新用户加入但交互较少时，这种情况在实际推荐系统中普遍存在。数据稀疏性成为当前深度推荐模型的主要性能瓶颈。

随着自然语言处理（NLP）中预训练的兴起，许多语言模型已经在大规模无监督语料库上进行了预训练，并在各种下游监督任务中进行了微调，以取得最先进的结果，如GPT和BERT。这种预训练和微调范式的优势之一是通过自监督任务（如遮蔽语言建模）从丰富的无标签数据中提取有用且可迁移的知识，当这些任务的标记数据不足时，这些知识将有益于下游任务，并避免从头开始训练新模型。

最近提出的一种范式，即prompt learning，以简单而灵活的方式统一了不同任务中预训练语言模型（PLMs）的用法。通常，prompt learning依赖于一套合适的提示，可以是硬文本模板或软连续嵌入，将下游任务重新表述为预训练任务。这种范式的优点在于：（1）它弥合了预训练和下游目标之间的差距，允许更好地利用预训练模型中的丰富知识。当下游数据非常少时，这个优势将倍增。（2）只需要调整少量的参数进行提示工程，更加高效。

受到上述范式在解决数据稀疏性和效率问题方面的显著有效性的启发，将语言建模范式应用于推荐被视为学术界和工业界的一个有前景的方向，极大地推进了推荐系统的最新研究。尽管在计算机视觉、自然语言处理和图学习领域有几篇关于预训练范式的综述文章，但与推荐系统相关的综述文章很少。这些综述文章总结了一些关于推荐模型的预训练研究，并讨论了不同领域之间的知识转移方法。但这些文章仅涵盖了少量类似BERT的工作，并没有深入探讨预训练推荐模型的训练细节。另外，它们没有系统地分析推荐系统中不同数据类型和训练范式选择之间的关系。本综述是第一篇全面介绍语言建模范式在推荐系统中的最新研究成果的论文。本文的主要贡献如下：

- 从训练策略、学习目标和相关数据类型的角度对基于PLM的推荐进行了综述，并提供了迄今为止的第一份系统综述，涵盖了这个新兴且快速发展的领域。

- 通过系统分类从预训练和微调以及提示两个角度全面回顾了现有的将语言建模范式应用于推荐任务的研究工作。对于每个分类，提供并解释了几个子分类，包括它们的概念、公式、涉及的方法以及它们在推荐中的训练和推断过程。

- 对限制和可能的未来研究方向进行了讨论，以帮助对这个领域感兴趣的初学者和实践者更有效地学习，并分享了集成资源。

总的来说，综述全面回顾了语言建模范式在推荐系统中的应用，并提供了对现有研究工作的细致分类和解释。此外，指出了该领域的限制和未来的研究方向，以促进该领域的进一步发展。

LMRS的通用架构

LMRS（Language Model-based Recommendation System）通过从预训练模型（PTMs）进行知识转移，提供了征服数据稀疏性问题的新途径。图1显示了LMRS的基本框图，突出了各种推荐任务的数据输入、预训练、微调/提示和推理阶段。一般来说，输入数据对象的类型与训练和推理阶段都相关。在将输入预处理为图形、有序序列或对齐的文本-图像对等所需形式之后，训练过程采用预处理数据，并进行“预训练，微调”或“预训练，提示”的流程。如果推理仅基于预训练模型，它可以被视为一种利用基于语言模型的学习目标的端到端方法。训练好的模型然后可以用于推断不同的推荐任务。

数据类型

将输入数据编码为嵌入向量通常是推荐系统中的第一步。然而，与大多数自然语言处理任务相比，推荐系统的输入更加多样化，因此编码技术和过程可能需要调整以适应不同的输入类型。作为传播和传递知识的强大媒介，文本数据通常用作建模用户偏好的输入。文本数据的示例包括评论、摘要、新闻、对话和代码。请注意，为了简化起见，将物品元数据和用户配置文件视为一种文本数据。顺序数据是严格按时间顺序或特定顺序排列的用户-物品交互，用作顺序和基于会话的推荐系统的顺序输入。图形通常包含与其他类型的数据输入（如用户-用户社交图或异构知识图）不同的语义信息，常用于提取结构化知识以提高推荐性能。在线环境的多样性促进了大量多媒体内容的生成，这已被证明可以提高许多研究工作中的推荐性能。图像、视频和音频等多模态数据也可以是LMRS的重要来源。多模态数据在推荐系统中起着关键作用。在LMRS论文中利用多模态数据的情况很少，可能是由于缺乏可访问的数据集。一些学者已经收集了自己的数据集，以促进文本-视频-音频三模态音乐推荐或为购物场景建立基准。

LMRS的训练策略

鉴于PLM在预训练和微调范式中对NLP任务产生的重大影响，最近在将这种范式应用于多个推荐任务方面出现了激增。如图1所示，根据不同的训练范式，主要有两类：预训练、微调范式和提示学习范式。每个类别又根据对推荐模型不同部分的不同训练方法进行了进一步分类。本节将介绍针对特定推荐目的的各种训练策略。图2(a)展示了根据不同训练策略分组的最近LMRSs的出版物统计数据，以及每年发表的研究论文总数。图2(b)展示了分类法和一些对应的代表性LMRSs。

5.1 RS的预训练、微调范式

“预训练，微调”范式因其几个优点而引起了推荐领域研究人员的越来越多关注：1）预训练提供了更好的模型初始化，通常导致在不同的下游推荐任务上更好的泛化能力，从各个角度提高了推荐性能，并加快了微调阶段的收敛速度；2）在庞大的源语料库上进行预训练可以学习到通用知识，这对下游推荐器是有益的；3）预训练可以被视为一种正则化方法，以避免在资源有限和小型数据集上过拟合。

预训练。这种训练策略可以被视为传统的端到端训练，其中包含领域输入。不同的是，我们只关注将基于语言模型的学习目标应用于训练阶段的研究。

预训练，微调整体模型。在这个类别中，模型会通过不同的数据源进行预训练和微调，微调过程将调整整个模型的参数。预训练和微调阶段的学习目标也可以有所不同。

预训练，微调部分模型。由于对整个模型进行微调通常耗时且不够灵活，许多LMRSs选择只微调模型的部分参数，以在训练开销和推荐性能之间取得平衡。

预训练，微调模型的额外部分。随着PTM的深度增加，它们所捕捉到的表示使得下游推荐更加容易。除了前面提到的两种微调策略，一些工作利用PTM之上的特定任务层来进行推荐任务。微调只涉及PTM的这些额外部分，通过优化任务特定层的参数进行微调。

5.2 RS的提示范式

近年来，一个不同于设计特定目标函数来适应不同下游推荐任务的趋势是使用“预训练、提示和推理”范式，通过硬/软提示重新构建下游推荐。在这个范式中，可以避免微调，预训练模型本身可以直接用于预测物品评分、生成前k个物品排名列表、进行对话、在编码时为程序员推荐类似的库，甚至输出与推荐目标相关的子任务。提示学习突破了数据限制的问题，并弥合了预训练和微调之间的目标形式差距。

固定-PTM提示调整。Prompt-tuning只需要调整一小组提示和标签的参数，对于少样本推荐任务特别高效。尽管通过构建提示信息而不显著改变PTM的结构和参数取得了令人期待的结果，但也需要选择最合适的提示模板和表达方式，这对于推荐性能有很大影响。提示调整可以采用离散文本模板的形式，这些模板更易于人类理解，也可以采用软连续向量的形式。

固定-提示PTM调整。类似于“预训练，微调”策略，但额外使用具有固定参数的提示来引导推荐任务。一种常见的方法是使用人工设计的离散提示来指定推荐项。提示还可以是一个或多个标记/单词，以无缝地将对话从各种任务转移/引导。

无调整提示。可以称为zero-shot推荐，它直接生成推荐和/或相关的子任务，而无需改变PTM的参数，仅基于输入的提示。与最先进的基线相比，zero-shot推荐已被证明在处理一个领域或跨领域设置中的新用户/物品时非常有效。在推理阶段，一系列精心设计的离散文本模板提示被作为输入，包括用于在新领域（未出现在预训练阶段）推荐物品的提示，训练好的模型输出了优选的结果，无需进行微调阶段。zero-shot推荐有效的原因在于训练数据和预训练任务能够从各种模态中提取语义和相关性的丰富知识，并将其融入用户和物品的令牌中，从而能够理解用户对物品特征的偏好行为。

提示+PTM调整。在这种设置中，参数包括两部分：与提示相关的参数和模型参数。调整阶段涉及优化特定推荐任务的所有参数。提示+PTM调整与“预训练，微调整整体模型”的策略不同，它在模型训练开始时提供额外的提示，从而提供额外的引导。提示+PTM调整阶段不一定意味着微调阶段，而可以是为了针对特定数据输入从两个方面进行参数调整的任何可能阶段。

LMRS的学习目标

本节将概述语言模型的几种典型学习任务和目标，以及它们在不同推荐任务中的适应方式。

6.1 推荐的语言建模目标

为了避免昂贵的手动标注数据集，许多语言学习目标采用了自监督标签，将它们转化为经典的概率密度估计问题。在语言建模目标中，自回归建模、重构建模和辅助建模是三种常用的类别。这里只介绍用于推荐系统的几种语言建模目标。

部分/自回归建模（Partial/Auto-regressive Modeling，P/AM）给定一个文本序列X1:T = [x1, x2, · · · xT]，AM的训练目标可以总结为给定所有前一个变量的情况下，每个变量的负对数似然的联合值：

现代语言模型推荐系统（LMRS）通常利用流行的预训练的从左到右的语言模型，如GPT-2和DialoGPT，分别作为可解释和对话推荐的基础，以避免从头开始进行繁重的预训练任务。虽然自回归目标可以有效地建模上下文依赖关系，但建模上下文只能从一个方向访问，主要是从左到右。为了解决这个限制，引入了部分/自回归建模（PAM），它通过将分解步骤扩展为一个范围来扩展AM。对于每个输入X，会采样一个分解顺序M。

除了直接利用在文本输入上训练的PTM，一些研究人员还将这个目标应用于具有顺序模式的输入，比如图和用户-物品交互。这些模式可以作为评分函数，从起始节点/用户到终止节点/物品选择合适的路径，或者作为探索新的用户-物品对的探测器。

掩码语言建模（Masked Language Modeling，MLM）将文本句子序列作为输入，首先使用特殊的标记（如[MASK]）掩盖一个标记或多个标记。然后，模型被训练以在将其余标记作为上下文的情况下预测掩码标记。其目标如下所示：

其中，M(X)和XM(X)分别表示输入序列X中的掩码标记和其余标记。同时，一些研究工作提出了多个增强版本的MLM。

下一句预测（Next Sentence Prediction，NSP）是一种二元分类损失，用于预测两个片段是否在原始文本中相连。训练可以通过从输入文本语料库中获取连续句子的正例，并通过将来自不同文档的片段配对来创建负例，以自监督的方式进行。NSP的一般损失函数如下所示：

其中x和y表示输入语料库中的两个片段，如果x和y是相邻的，则c = 1，否则c = 0。NSP目标涉及对句子对之间的关系进行推理，可用于更好地学习文本项（如新闻文章、物品描述和对话数据）的表示，以用于推荐目的。此外，它还可以用于建模两个组件之间的密切关系。作为NSP的一种变体，句子顺序预测（Sentence Order Prediction，SOP）以同一文档中的两个相邻片段作为正例，然后将它们按顺序交换作为负例。SOP已被用于学习标题、描述和代码的内在一致性，用于StackOverflow上的标签推荐。然而，一些研究人员对于NSP和SOP在下游任务中的必要性和有效性提出了质疑，这突显了在推荐场景中需要进一步的研究。

替换标记检测（Replaced Token Detection，RTD）用于预测一个标记是否被替换，给定其周围的上下文：

de Souza Pereira Moreira等人（2021）使用RTD目标训练了一个基于Transformer的模型，用于基于会话的推荐，在MLM和AM目标中取得了最佳性能。这可能是因为RTD将整个用户-物品交互序列作为输入，并以双向方式建模上下文。

6.2 推荐的适应性目标

许多预训练或微调目标从语言模型（LM）目标中汲取灵感，并根据输入数据类型和推荐目标有效地应用于特定的下游任务。在顺序推荐中，通常希望以自回归的方式从左到右对有序的输入序列进行建模。

类似于文本句子，Zheng等人（2022）和Xiao等人（2022）将用户的点击新闻历史视为输入文本，并提出以自回归的方式建模用户行为，用于下一次点击预测。然而，由于顺序依赖性在推荐中的用户偏好方面不一定严格成立（Yuan等人，2020a），MLM目标可以相应地进行修改。Yuan等人（2020b）在训练过程中随机屏蔽了一定比例的历史用户记录，并预测了被屏蔽的项目。自回归学习任务也可以适应其他类型的数据。Geng等人（2022b）通过从预训练模型生成终节点，以自回归的方式对从知识图谱中采样的一系列路径进行推荐建模。Zhao（2022）提出了预训练“重新排列序列预测”任务，通过预测用户交互历史是否已被重新排列来学习用户整个交互历史的序列级信息，这与排列语言建模（Permuted Language Modeling，PerLM）（Yang等人，2019）类似。

MLM，也被称为填空预测（Cloze Prediction），可以用于学习不同推荐目的的图表示。Wang等人（2023a）提出了在用户-物品-属性异构图的重构子图上对Transformer模型进行预训练的方法，使用掩码节点预测（Masked Node Prediction，MNP）、掩码边预测（Masked Edge Prediction，MEP）和元路径类型预测作为目标。具体而言，MNP通过在异构子图中随机屏蔽一定比例的节点，然后根据剩余上下文预测被屏蔽的节点，通过最大化被屏蔽节点与不相关节点之间的距离来进行。类似地，MEP用于根据周围上下文恢复两个相邻节点的屏蔽边。除此之外，MLM还可以适应多模态数据，称为掩码多模态建模（Masked Multi-modal Modeling，MMM）（Wu等人，2022a）。MMM通过给定未屏蔽的输入，预测被屏蔽的新闻和新闻图像区域的语义，并指示新闻图像和新闻内容段是否相对应，用于新闻推荐。

NSP/SOP可以适应CTR预测，称为Next K Behaviors Prediction（NBP）。NBP旨在通过推断候选行为是否是目标用户过去N个行为中的第i个行为，来在预训练阶段学习用户表示。NBP还可以捕捉过去行为和多个未来行为之间的相关性。

用数据类型制定训练

为了将训练策略和学习目标与不同的输入数据类型关联起来，我们在表格1中总结了该领域的代表性工作。所列出的训练策略和目标经过精心选择，并且在现有工作中是典型的。由于篇幅限制，只选择了LMRS领域的一部分最新研究。

考虑到数据集是LMRS方法的经验分析的另一个重要因素，表格2列出了几个代表性的公开可用数据集，考虑到数据使用的普及度和数据类型的多样性，以及它们对应的推荐任务、训练策略和采用的数据类型。从表格2中，得出了几个观察结果：首先，数据集可以转换为不同的数据类型，然后可以从不同的角度进行分析，以增强下游推荐。不同数据类型的整合也可以更有效地实现不同的推荐目标。进一步观察到，在LMRS中，提示方法主要用于文本和序列数据类型，但对于多模态或图数据的探索还不足。这表明，探索额外的数据类型可能是提示驱动的LMRS研究的未来方向。

评估

8.1 评估指标

作为推荐系统设计的重要方面，评估可以从多个维度提供有关推荐质量的见解。除了离线模式下的常见指标如RMSE、MAP、AUC、MAE、召回率、精确率、MRR、NDCG、F1-score和命中率之外，一些研究定义了组AUC（Zhang等人，2022）或用户组AUC（Zheng等人，2022）来评估组推荐的效用。Jiang等人（2022）和Liu等人（2022）进行了A/B测试，使用转化率或CTR来评估与在线用户的性能。

将生成模块（如GPT和T5）集成到现有的推荐系统中为推荐系统提供了额外的可能性，例如为推荐结果生成自由形式的文本解释，或在会话推荐中模拟更真实的真实对话场景以增强用户体验。在这种情况下，常用的评估指标是基于词汇重叠的BLEU和ROUGE，用于自动评估生成文本的相关性。此外，困惑度（Perplexity，PPL）、Distinct-n和唯一句子比例（Unique Sentence Ratio，USR）也是广泛使用的评估指标，用于衡量生成文本的流畅性、多样性和信息量。根据LMRS的特殊要求，还可以利用其他评估指标。

人工评估是客观评估的补充，因为自动指标可能无法与用户的主观反馈相匹配。人工主观评估和自动客观评估的结果可能相反，这凸显了现有自动指标在评估LMRS中生成的解释和对话时的局限性。图3显示了各自任务中不同评估指标的使用频率统计。

8.2 跨数据集评估的讨论

本节比较使用常用数据集获得的各种模型的结果。具体而言，根据论文中报告的结果，测量了不同模型相对于共享基准线的改进，并使用相同的指标在相同的数据集上对它们进行评估。比较结果显示在表3-6中。大多数改进都以粗体显示，N@k表示NDCG@k，H@k表示HitRate@k。重要的是要认识到，如果没有精心设计的平台和周到的实验设置，就无法进行全面和准确的评估。各种因素，如不同的训练平台、参数设置和数据拆分策略，都可能导致结果的波动。因此，这些分析仅供参考目的。从表格中可以观察到以下几点：首先，在使用ReDial数据集评估的四个对话式推荐系统中，固定提示的PTM调整范式相对于共享基线展示了最显著的改进。其次，在亚马逊数据集上，ChatGPT的零样本学习和少样本学习表现不如受监督的推荐基线。这可能是因为语言模型更擅长捕捉语言模式，而不是通过有效合作基于用户偏好提供类似的物品推荐。此外，候选物品在物品池中的位置也会影响直接推荐的性能。另一个基于提示的模型P5对亚马逊和Yelp数据集都显示出了最大的改进，这验证了在使用大型预训练语言模型进行推荐时需要更多的指导。最后，在MIND数据集上的新闻推荐中引入了一个与模型无关的微调框架，并进行了缓存管理，这可以加速模型训练过程并在基线上取得最大的改进。

讨论及未来方向

尽管已经在各种推荐任务中验证了LM训练范式的有效性，但仍存在一些挑战可能成为未来的研究方向。

推荐中语言生成任务中的语言偏见和事实一致性。在生成对话式推荐系统的自由形式回复或推荐结果的解释时，现有LMRS的生成组件往往倾向于预测通用标记，以确保句子的流畅性或重复某些通用适用的“安全”句子。因此，一个未来的研究方向是在保持语言流畅性的同时增强生成解释和回复的多样性和相关性，而不是采用“太极”的回答方式。此外，生成事实上一致的句子也是一个亟待解决但未得到足够关注的研究问题。

在将知识从预训练模型传输和注入到下游推荐。不恰当的训练策略可能导致不同程度的问题。张等人（2022）指出了在持续训练的工业推荐系统中出现的灾难性遗忘问题。预训练模型所具备的领域知识的程度，以及将其传输和注入到推荐目的的有效方式，都是开放的问题。例如，张等人（2021b）尝试了一种简单的方法，通过领域自适应预训练来注入知识，结果只取得了有限的改进。此外，关于如何最大化知识在不同推荐任务中的传递，如何量化传递的知识程度，以及是否存在知识传递的上限等问题，都是需要在人工智能社区中进行研究和探索的有价值的问题。

推荐系统中预训练机制的可扩展性问题。随着模型参数不断增加，其中存储的知识也在增加。尽管预训练模型在多个推荐任务中取得了巨大的成功，但如何在不影响实际推荐效率和准确性的情况下维护和更新如此复杂和大规模的模型仍需要更多关注。一些研究提出通过对部分预训练模型或比模型规模小得多的额外部分进行微调来提高模型更新效率。然而，Yuan等人（2020b）在实证研究中发现，仅微调输出层通常会导致推荐场景下表现不佳。虽然适当微调最后几层有时会带来有希望的性能提升，但改进结果相当不稳定，而且依赖于预训练模型和任务。Yu等人（2022）提出将大型预训练语言模型压缩为学生模型，以提高推荐效率，而Yang等人（2022b）则专注于通过累积冗余物品编码的梯度来加速预训练语言模型的微调，减少GPU内存占用在新闻推荐中。尽管取得了这些成就，但在这个快速发展的领域仍然需要进一步努力。

在预训练中平衡多个目标。许多研究使用多任务学习目标，以更好地将在预训练阶段学到的知识应用于下游任务（Geng等人，2022c；Wang等人，2023a）。针对推荐系统的多任务学习的主要目标是通过促进相关任务之间的交互来提高推荐准确性和/或其他相关方面。学习优化过程需要在不同目标之间进行权衡。例如，Wang等人（2023b）微调参数以优化和平衡主题级别推荐、语义级别推荐和主题学习的整体目标。类似地，在Wang等人（2022c）的工作中，作者采用了一个参数，要求在生成对话目标和引文推荐目标之间实现平衡学习。Yang等人（2022a）提出了一个对话式推荐框架，包含一个生成模块和一个推荐模块。整体目标设计是通过微调过程学习一个参数来平衡这两个模块。然而，不适当的优化可能会导致其他问题，正如Deng等人（2023）指出的，当按顺序解决多个任务时可能会出现“错误传播”，导致每个任务的顺序完成时性能下降。虽然已经提出了一些潜在的解决方案（Deng等人，2023；Li等人，2022；Geng等人，2022a），但仍需要进一步验证。

在推荐基础中选择多个PLM。随着变分PLM（例如ChatGPT）的进步，以及它们在各种下游任务中的成功，研究人员已经开始探索ChatGPT在对话式推荐任务中的潜力。例如，Liu等人（2023a）和Gao等人（2023）研究了基于GPT-3/GPT-3.5的ChatGPT在零样本场景中的能力，使用人工设计的提示来评估其在评分预测、顺序推荐、直接推荐和解释生成方面的性能。然而，这些研究只是初步的探索，还需要在基于各种预训练语言模型的不同推荐任务上进行更广泛的研究。这包括在不同领域中进行提示设计和性能评估。此外，最近的LMRS研究尚未探索指令调优，这可能是未来研究的一个有前景的方向。

隐私问题。Yuan等人（2020b）进行的研究揭示了预训练模型可以基于学习到的用户表示推断用户的个人信息（如性别、年龄和婚姻状况），这引发了对隐私保护的关注。预训练过程通常在大规模的网络抓取语料库上进行，没有进行细粒度的过滤，这可能暴露用户的敏感信息。因此，开发在隐私保护和高性能推荐算法之间取得平衡的LMRS仍然是一个悬而未决的问题。

Foundation Models for Recommender Systems: A Survey and New Perspectives

摘要

最近，基于Foundation Models (FMs) 的推荐系统（FM4RecSys）在推荐系统领域提供了独特的机会，这些模型具有丰富的知识库和复杂的架构。本文试图全面地研究基于FM的推荐系统。首先回顾了FM4RecSys的研究背景。然后提供了现有FM4RecSys研究工作的系统分类，可以分为数据特征、表示学习、模型类型和下游任务四个不同的部分。每个部分中回顾了最近的关键研究进展，概述了代表性模型并讨论其特点。此外，详细阐述了FM4RecSys的开放问题和机遇，旨在为未来的研究方向提供启示。最后，讨论了这一领域的新兴趋势。

引言

推荐系统（RSs）根据个性化偏好量身定制内容和体验，越来越多地为业务增强和决策过程做出贡献。与此同时，基础模型（FMs）在自然语言处理、计算机视觉和多模态任务等领域取得了重大进展。最近，FMs已经在重塑推荐系统架构、提高性能和提供新的交互方式方面发挥作用。具有增强泛化能力的基础模型推荐系统能够利用更复杂的用户-物品信息并处理更多样化的推荐系统任务。具体而言，FM4RecSys是指利用预训练和推荐数据集的知识，捕捉用户偏好、物品特征和上下文变量的丰富表示，以提高个性化和预测准确性。接下来探讨现有工作的动机，以加深对在这一背景下应用和影响基础模型的理解。

1.1 动机

以下列举了推动FM4RecSys研究在不断发展的领域中的主要动机。

增强泛化能力。Foundation Models旨在从大规模数据中学习，使它们能够理解复杂的模式。FMs在面对新的、未知的数据时能够更好地进行泛化。在推荐系统的背景下，这意味着FMs能够更准确地预测用户的偏好和行为，特别是在数据稀疏或新物品的情况下。通过从有限的信息或交互中推断用户的偏好或物品特征，推荐可以变得更加有效，即使对于新用户或物品也是如此。

提升推荐体验。Foundation Models为推荐系统引入了一种变革性的界面范式，极大地改变了用户的交互体验。例如，对话式推荐系统是一个经典的应用场景，先前的CRSs 主要依赖于预先建立的对话模板，这种依赖通常限制了用户参与的广度和适应性。相反，FMs引入了一种向更动态、非结构化对话交互的范式转变，提供了增强的互动性和灵活性。这种交互式设计可以实现更有吸引力和自然的用户与系统之间的交互。用户可以以对话的方式沟通他们的偏好、提问并获得定制的推荐。

改进解释和推理能力。Foundation Models增强了解释和推理能力。传统的推荐系统主要从用户评论或基本的用户行为（如共购买的物品或同伴购买）中获得解释，这些解释往往缺乏深入的逻辑和上下文。相比之下，Foundation Models具有利用常识和用户特定上下文进行丰富解释的能力。这些模型利用包括用户偏好、历史交互和独特物品特征在内的各种数据，生成更连贯和逻辑合理的解释。利用Foundation Models来深入解释用户行为序列和兴趣可以显著提高未来推荐系统在复杂场景中的效果。这种方法有望在医学和医疗保健等领域推进明智和负责任的决策过程，例如治疗和诊断推荐。

1.2 与最近的基于LLM的

推荐系统综述相比的显著特点

差异和主要贡献：与先前的综述相比，本文的方法论为研究FM4RecSys的交叉领域引入了独特的视角。图1所示系统地概述了在推荐系统中使用Foundation Models（FMs）的框架（FM4RecSys），涵盖了从推荐数据的特征到具体的下游任务的所有内容。我们、对FM4RecSys进行分类的方法是双管齐下，既关注所使用的模型类型，又关注推荐任务本身。这份综述不仅涵盖了大型语言模型（LLMs），还包括了更广泛的基础模型。我们进一步深入探讨了这一领域中最新未解决的问题和潜在机会。

FM4RecSys的研究进展

3.1 数据特征与表示学习

在基于基础模型之前的推荐系统中，推荐系统主要依赖于使用一位有效编码（one-hot encoding）表示的用户和物品表示。随着FM4RecSys的出现，推荐系统开始更多地采用多样化的输入，如用户个人资料、物品的附加信息以及维基百科等外部知识库，以提高推荐性能。具体而言，许多研究 [Bao等，2023c; Hua等，2023b] 表明，构建基于FM的推荐系统的关键在于弥合FMs的预训练和推荐任务之间的差距。为了缩小这一差距，现有的工作通常将推荐数据表示为自然语言，以便在FMs上进行微调[Zhu等，2023]。在这个过程中，每个用户/物品由一个唯一的标识符表示（例如用户个人资料、物品标题或数字ID），然后用户的历史交互被转换为标识符的序列。可以对这些标识符进行微调，以学习它们在推荐任务中的表示能力。当前的推荐数据表示方法可以分为基于ID的表示、多模态表示和混合表示。

在FM的背景下，最近的关于基于ID的表示的研究利用像'[前缀]+[ID]'（例如'user 123'或'item 57'）这样的数字ID来表示用户和物品，有效地捕捉到物品的唯一性[Geng等，2022; Hua等，2023c]。然而，数字ID缺乏语义信息，无法充分利用FMs中的丰富知识。此外，FMs需要足够的交互来微调每个ID的表示，限制了它们在大规模、冷启动和跨领域推荐中的泛化能力。此外，ID索引需要更新词汇表以处理词汇外（OOV）问题，并且需要对FMs的参数进行更新，这会带来额外的计算成本，突显了对更具信息性的表示的需求。

一个有希望的替代方法是利用多模态附加信息，包括利用图像[Sarkar等，2023]（如物品的视觉信息）、文本内容[Li等，2023a; Zhang和Wang，2023]（包括物品的标题、描述和评论）、多模态元素[Shen等，2022; Youwang等，2022]（如短视频片段和音乐）以及外部知识源[Zhai等，2023; Xi等，2023]（如维基百科中详细描述的物品关系）。Yuan等人[2023]强调了基于多模态的推荐系统相对于基于ID的对应方法的优势，引起了人们的关注。

然而，纯物品附加信息和用户-物品交互之间的一致性可能并不总是存在[Zhu等，2023; Liao等，2023]。换句话说，具有相似视觉或文本特征的两个物品可能与用户具有不同的交互模式。因此，利用混合表示的另一种方法是将ID和多模态附加信息相结合，以实现独特性和语义丰富性的双重目标。例如，TransRec [Lin等，2023d]利用多方面的标识符，结合ID、标题和属性，实现了物品表示中的独特性和语义丰富性。CLLM4Rec [Zhu等，2023]通过硬提示和软提示，通过扩充FMs的词汇表并对用户/物品ID标记进行对齐，并结合用户-物品评论文本信息，实现了用户/物品协同信息和内容语义的准确建模。

3.2 FM4RecSys的分类框架

图2呈现的FM4RecSys分类框架的结构化概述是按照模型类型进行组织的。与早期关注LLMs的调查不同，该框架扩展到包括对最新语言基础模型用于推荐系统（RS）的讨论，以及关于基于多模态FM的系统和在RS中使用FM的个性化代理的额外研究。这种更广泛的涵盖范围能够更全面地了解当前基于FM的RS领域的现状和潜在进展。

语言基础模型用于RecSys、

语言基础模型用于RecSys是FM4RecSys的主要分支，重点关注预训练和直接微调的模型以及提示技术。

FM4RecSys的预训练模型。一些工作在大规模推荐数据集上对整个模型进行预训练，采用基于Transformer的模型进行下一个物品预测，并应用不同的语言建模任务，如掩码语言建模、排列语言建模等。这一系列的研究通常需要大量的领域数据用于推荐系统，导致训练成本高昂。

FM4RecSys的直接微调模型。一系列的工作采用经过微调的FM作为推荐系统。InstructRec [Zhang等，2023e]为微调设计了丰富的指导，包括39个手动设计的模板，涵盖了用户的偏好、意图、任务形式和上下文。在指导微调之后，LLMs可以理解和遵循不同的推荐指导。TallRec [Bao等，2023b]使用了一种参数高效的微调方法LoRA [Hu等，2022]，用于处理LLMs的两阶段微调。首先，在Alpaca的通用数据上进行微调，然后再利用用户的历史信息进行进一步微调。它将物品标题作为输入，并在冷启动推荐中显示出有效性。BIGRec [Bao等，2023a]强调LLMs由于固有的语义偏见，很难整合诸如流行度和协同过滤等统计数据。为了解决这个问题，BIGRec通过指导微调LLMs来生成代表物品的标记。然而，由于LLMs的创造性特质，将LLM的输出与现实世界的物品对齐是具有挑战性的。BIGRec随后通过融入诸如物品流行度等统计数据，将这些生成的标记与推荐数据库中的真实物品对齐。

FM4RecSys的提示技术。另一种方法是采用非微调的范式，其中LLM的参数保持不变，重点是使用提示策略提取知识。现有的非微调范式的工作主要集中在设计适当的提示来激发LLM的推荐能力。Liu等人[2023b]提出了一个提示构造框架，评估ChatGPT在五个常见推荐任务上的能力，并为每种类型的提示提供了零样本和少样本版本。He等人[2023b]不仅使用提示来评估LLMs在序列推荐上的能力，还引入了以最近为重点的提示和上下文学习策略，以缓解LLMs的顺序感知和位置偏见问题。最近，一些工作 [Xu等，2024] 还专注于为FM4RecSys设计新颖的提示结构。Yao等人[2023]包括自然语言中的物品属性、通过文本模板呈现的协同过滤信息以及知识图谱推理路径等启发式提示。类似地，Rahdari等人[2023]设计了层次提示结构，其中包含了关于推荐物品和用户交互历史中前k个相似物品信息的信息。

个性化代理用于RecSys的基础模型

个人代理通常被表示为用户模拟器或推荐系统本身，如图3所示。

代理作为用户模拟器。使用代理来模拟现实世界中的用户行为。收集足够数量和高质量的用户行为数据是昂贵且伦理复杂的。此外，传统方法 [Zhu等，2017；Ie等，2019] 在模拟复杂用户行为方面往往存在困难，而基础模型在模拟用户行为方面显示出潜力 [Wang等，2023b]。因此，采用由基础模型驱动的个性化代理用于RS成为一种合乎逻辑且有效的策略。Wang等人[2023b]将每个用户视为FM为基础的自治代理，放置在名为RecAgent的虚拟模拟器中。该模拟器允许不同代理之间的自由互动、行为和演化，考虑到不仅是RS内的行为，如物品浏览和点击，还包括社交互动等外部因素。张等人[2023a]进一步研究了基于FM的生成代理在电影RS中能够准确模拟真实人类行为的程度。他们设计了Agent4Rec，一个推荐系统模拟器，其中有1,000个由LLM驱动的生成代理以页面为单位与个性化电影推荐进行交互，执行各种动作。之后，[张等人，2023d]提出了在RS中模拟用户-物品交互的方法，将用户和物品都视为代理，实现了一种协作学习过程，优化了代理之间的交互。

代理作为RecSys。利用基础模型的强大能力，包括推理、反思和工具使用，进行推荐。Wang等人[2023e]首先引入了一种自我激发的规划算法，跟踪代理的所有过去步骤，帮助生成新的状态。在每一步中，代理回顾之前所采取的所有路径，以确定下一步该做什么。这种方法有助于利用数据库、搜索引擎和摘要工具，结合用户数据，生成定制化的推荐。[Huang等，2023]将基础模型作为大脑，而推荐模型则作为提供领域特定知识的工具，然后基础模型可以解析用户意图并生成响应。他们指定了一组用于RS任务的核心工具——信息查询、物品检索和物品排序，并引入了一个候选记忆总线，允许之前的工具访问和修改物品候选池。

多模态基础模型用于RecSys

在RecSys中使用多模态基础模型(MFMs)主要有两个主要方向：将MFMs作为多模态特征的编码器，以及将MFMs集中集成到推荐系统中，进行直接的多模态数据处理和推荐生成。

MFMs作为特征编码器。MFMs作为多模态数据的编码器，利用其强大的表示和泛化能力来提取推荐所需的特征。例如，ViT [Ji等，2023]用于提取物品的图像特征，CLIP [Wang等，2023a；Zhang等，2023b]用于提取图像和文本特征，SentenceBert/BLOOM-176B [Shen等，2022]用于文本特征，DeepSim [McKee等，2023]用于音频，SlowFast [Shen等，2022]用于视频特征。这些方法面临的一个关键挑战是如何弥合预训练的优化目标与下游推荐任务的优化目标之间的差异。

MFMs作为RecSys。Geng等人[2023]引入了VIP5，这是他们早期工作的延伸，专注于推荐任务中的视觉和文本模态。VIP5结合了多模态个性化提示和参数高效的训练策略，其中包括冻结基础P5骨干网络并微调轻量级适配器以提高性能和效率。在同一基础工作的基础上，Zhai等人[2023]提出了KP4SR方法，利用外部知识库和结构化知识提示来解决顺序推荐系统中的语义鸿沟。在最近的一项研究中，Zhou等人[2023b]研究了GPT-4V在以视觉为基础的推荐任务中的应用，并评估了其在文化、艺术、娱乐和零售等不同领域的零样本推荐能力。然而，作为一项初步研究，它面临着一些限制，如缺乏定量评估、样本偏差和潜在的响应不一致性。

3.3 FM4RecSys的应用

Top-K推荐任务

Top-K推荐任务本质上是一种排序任务。然而，如果用户信息（包括元信息和物品交互历史）过长，可能会超过基础模型的输入长度限制。为了解决这个问题，可以在FMs中使用基于ID表示的方法[Hua等，2023c]。基础模型使用仅包含用户信息的提示，要求基础模型直接为这些用户生成推荐[Xu等，2023b；Geng等，2022]。在多模态和生成表示方法的情况下，生成的推荐物品可以与排名候选物品的多模态表示进行相似性计算[Liu等，2023e]。此外，一些方法[Li等，2023d；Dai等，2023]采用了NLP领域的做法。他们选择K个负样本或难例，将它们与用户提示一起提供给FMs，并获得最终的排序结果。然而，这些方法针对的是理想化的实验场景，可能对于拥有数百万个物品的真实世界推荐系统来说并不实际。

基于上下文感知的推荐系统中的FM

已经提出了各种基于FM的方法来利用它们在上下文感知推荐领域的能力。基于FM的世界知识不仅可以作为物品的丰富背景信息的来源[Harte等，2023]，而且FM的推理能力可以增强下一个物品的预测[Xi等，2023；Wang等，2023f]。[Harte等，2023]首先探索了三种不同的利用基础模型知识进行上下文感知推荐的方法，基于FM语义相似性的方法、基于FM提示微调的方法以及由FM语义嵌入初始化的BERT4Rec方法。Wu等人[2022]利用用户个人资料知识生成个性化的软提示，并采用面向提示的对比学习进行有效训练。

在此之后，Zhai等人[2023]引入了用于上下文感知推荐的知识提示微调方法，该方法有效地将外部知识库与FM集成，通过将结构化知识转化为提示来缩小语义差距和减少噪声，从而改进推荐结果。最近，Liao等人[2023]采用了一种混合方法来表示FM的输入提示中的物品，将传统推荐系统中基于ID的物品嵌入与文本物品特征相结合，通过适配器来弥合传统推荐系统和FM之间的模态差距，并促进将用户行为知识转移到FM的输入空间。同时，Wang等人[2023f]利用基础模型(FMs)的推理能力，引入了一种协同上下文演示检索方法，抽象出高层次的用户偏好并减少噪声，以改进推荐过程，而无需对FM进行微调。

交互式推荐中的FM

交互式推荐的目标不仅是在多轮交互中向用户推荐物品，还要提供人类般的回应，用于偏好细化、知识讨论或推荐解释等多种目的[Jannach等，2022；Sun和Zhang，2018]。FM的出现无疑对交互式推荐产生了影响，特别是与CRS相关的研究。He等人[2023]提供了实证证据，表明即使在零-shot设置下，FM甚至在没有进行微调的情况下也能超越现有的对话式推荐模型。在此之后，一系列工作[Liu等，2023a；Lin和Zhang，2023；Wang等，2023e；Spurlock等，2024]采用角色扮演提示来指导ChatGPT/GPT-4模拟用户与对话式推荐代理的互动。这些工作通过RAG和Chain-of-Thought（CoT）等技术增强了FM的能力。同时，还有几项研究基于先前的知识图谱交互式推荐工作[Zhou等，2020]。例如，Wang等人[2021]引入了一个将类似DialoGPT的PLM与知识图谱集成的框架，用于生成对话并推荐物品，展示了如何利用FM的生成能力进行交互式推荐。Zhang等人[2023]探索了以用户为中心的方法，强调通过基于图的推理和强化学习来适应FM对用户不断变化的偏好。最近，Wang等人[2023c]批评了当前交互式推荐系统的评估协议，并引入了一种基于FM的用户模拟器方法iEvaLM，显著提高了评估准确性和可解释性。然而，FM用于交互式推荐仍然受到对流行度偏见的倾向以及对地理区域的敏感性的限制。

FM4RecSys中的跨领域推荐

在现实世界的场景中，数据稀疏性是协同过滤（Collaborative Filtering，CF）推荐系统中普遍存在的问题，因为用户很少对广泛范围的物品进行评分或评论，尤其是新物品。跨领域推荐（Cross-domain recommendation，CDR）通过利用来自已知源领域的丰富数据来增强数据稀缺目标领域中的推荐。多领域推荐（Multi-domain recommendation，MDR）通过利用多个领域的辅助信息来为特定用户推荐这些领域内的物品[Zhu等，2021]。然而，领域冲突仍然是一个重要的障碍，可能限制推荐的有效性。基于在各个领域上进行广泛预训练的基础模型的出现，以及具有跨领域类比推理能力[Hu等，2023]，为应对这些挑战提供了有希望的解决方案。

HAMUR [Li等，2023c]设计了一个领域特定的适配器，集成到现有模型中，并设计了一个领域共享的超网络，动态生成适配器参数，以解决先前模型中的相互干扰和缺乏适应性的问题。Tang等人[2023]讨论了在多领域推荐系统中使用FM的应用，通过混合不同领域中的用户行为，将这些物品的标题信息连接成一个句子，并使用预训练的语言模型对用户行为进行建模，展示了在不同数据集上的有效性。S&R Multi-Domain FM [Gong等，2023]利用FM来改进查询和物品的文本特征，提高了在新用户或物品场景中的点击率（CTR）预测。KAR [Xi等，2023]进一步利用FM的能力进行开放世界推理和事实知识提取和适应。它引入了一个包含知识推理和生成、适应和后续利用的综合三阶段过程。基于S&R Multi-Domain FM，Uni-CTR [Fu等，2023b]采用了一种独特的提示策略，将特征转化为FM可以使用的提示序列，生成语义表示，既捕捉了领域间的共性，又通过领域特定网络学习了领域特定的特征。最近，Fu等人[2023a]研究了基于适配器的学习在CDR中的有效性，该方法旨在利用原始物品的多模式特征，如文本和图像，进行推荐。他们进行了实证研究，对现有的适配器进行了基准测试，并考察了影响它们性能的关键因素。

FM4RecSys中的可解释性和公平性

FM4RecSys中的可解释性。增强推荐系统可解释性的常见任务是生成自然语言解释[Zhang和Chen，2020]。这涉及指导推荐器或外部模型以句子或段落的形式，为特定用户推荐特定物品的原因。例如，给定一个用户u和一个物品i，模型的任务是生成一个连贯和易于理解的自然语言解释，阐明为什么向用户u推荐物品i。一系列的工作使用基于ID的表示，并利用提示语，如“向用户u解释为什么向其推荐物品i”[Li等，2020]。然而，仅使用ID作为提示可能导致解释模糊，缺乏对推荐的具体方面的清晰度。为了解决这个问题，Cui等人[2022]提出在提示中将物品特征作为提示词集成进来，旨在更有效地指导模型进行解释过程。最近，Liu等人[2023d]利用连续的提示向量而不是离散的提示模板。值得注意的是，发现在上下文学习而无需微调的情况下，ChatGPT的性能超过了几种传统的监督方法[Liu等，2023a]。

FM4RecSys中的公平性。在推荐系统中，公平性的必要性源于其在决策和满足用户需求方面的广泛应用。然而，目前尚存在一个问题，即不了解基础模型在推荐系统中表现出的公平程度，以及在这些模型中公平地满足不同用户和物品群体需求的合适方法[Hua等，2023a；Zhang等，2023c]。对于用户群体方面，Hua等人[2023a]基于反事实公平提示（CFP）技术提出了用于公平感知推荐的无偏基础模型（UP5）。之后，Zhang等人[2023c]设计了度量标准和数据集，考虑了两个推荐场景（音乐和电影）中不同敏感属性，并评估了ChatGPT在用户方面的公平性关于各种敏感属性。对于物品方面，Hou等人[2023b]通过提示指导FMs，将推荐任务形式化为条件排名任务，以改善物品方面的公平性。关于FM4RecSys中的非歧视和公平性的研究还处于早期阶段，需要进一步的调查研究。

开放问题和机会

4.1 FM4RecSys中的长序列

FM4RecSys在处理长输入序列时面临挑战，这是由于它们固定的上下文窗口限制所导致的，这影响了它们在需要大量上下文的任务中的有效性[Kitaev等，2019；Beltagy等，2020]，例如上下文感知推荐。上下文感知的推荐系统依赖于用户的全面交互历史和广泛的物品排名列表，往往超过了FM的上下文容量，导致推荐效果较差。正在探索从自然语言处理（NLP）技术中进行的调整，包括对输入进行分段和总结，以适应上下文窗口，并采用注意机制和记忆增强等策略，以增强对输入的相关部分的关注。RoPE技术[Su等，2024]通过创新的旋转位置嵌入，在处理长输入方面显示出潜力，并为在FM的上下文窗口约束下保持推荐系统性能提供了潜在的解决方案。

4.2 可解释性和可信度

在推荐系统中增强可解释性和可信度始终是一个重大挑战，尤其是在FM时代。FM的复杂性和规模为解释FM4RecSys引入了新的障碍。推荐系统中有两种主要的可解释性方法：一种是生成推荐的自然语言解释，另一种是深入研究模型的内部工作原理。前一种方法在FM之前已经进行了相当多的探索[Zhang等，2020]，而后一种方法的发展较少。还有一些工作[Rahdari等，2023；Wang等，2023d]将FMs（如提示）与显式知识库（如知识图谱）进行对齐。这种对齐可以使模型的决策过程在知识图谱中成为可追踪的特定路径，提供更清晰的解释。然而，这些方法仍处于初步阶段，可能通过Chain/Tree of Thoughts等技术进一步增强。

4.3 时间推断

最近的研究[Jin等，2023]表明，FM可以以零样本的方式推广时间序列数据，其性能与在特定任务上训练的专门模型相当或优越。这一成功主要归功于FM捕捉多模态分布的能力以及其对简单性和重复性的倾向，这与时间序列数据中常见的重复和季节性趋势相 resonates。时间序列建模与其他序列建模不同，因为它具有可变的尺度、采样率和偶尔的数据缺失，尚未充分受益于大规模预训练。为了解决这个问题，LLMTIME2 [Gruver等，2023]通过将时间序列编码为数字字符串，并将预测视为下一个标记预测任务，利用LLMs进行连续时间序列预测。这种方法将标记分布转化为连续密度，使LLMs可以轻松应用于时间序列预测，无需专门的知识或高计算成本，特别适用于资源有限的情况。此外，通过将用户偏好数据视为时间序列序列，这些模型可以灵活适应偏好的长期变化，并随着时间的推移提高个性化和预测准确性，特别是在LLMTIME2等方法的零样本能力下，可以快速适应用户偏好的变化，无需进行大量的重新训练。

4.4 RecSys的多模态Agent AI

多模态Agent AI [Durante等，2024]是一个新兴领域，专注于能够在各个领域和应用中感知和行动的AI系统。为了实现基于对周围世界的多模态理解的智能，Agent AI系统利用各种生成模型和数据源进行与现实无关的训练。这些系统可以在物理和虚拟环境中具体化，使它们能够处理视觉和上下文数据，理解用户的行为和行为，并产生有意义的回应。在推荐系统的应用中，代理可以根据对用户偏好的推断来决定推荐什么。代理还可以更加交互，以利用来自用户或环境的实时响应或反馈来调整推断并改进推荐。特别是，它们不仅可以作为推荐系统的模拟器，还可以作为用户的模拟器。这种方法允许在离线环境中进行数据收集和训练，降低了在现实世界中进行A/B测试的成本。它可以扩展到更广泛的用户范围，例如在路径规划推荐和医药发现和推荐等应用中。

4.5 RAG与推荐系统相结合

检索增强生成（Retrieval-Augmented Generation，RAG）是一种在FM中使用的技术，通过将外部数据检索集成到生成过程中，增强了其生成能力[Gao等，2023b]。这种方法提高了FM输出的准确性、可信度和相关性，尤其在信息检索和推荐系统等知识密集型任务中。RAG旨在通过将FM的内部知识与动态外部知识库相结合，解决过时的知识、生成不正确的信息（幻觉）和有限的领域专业知识。RAG适用于增强FM4RecSys，在现实世界的推荐系统环境中对用户行为序列进行建模[Lin等，2023c]。它可以确保推荐系统与用户偏好和趋势的持续变化保持最新，这对于准确识别和记录长期行为模式至关重要。例如，考虑到FMs的输入标记长度限制，RAG可以用于选择性地提取用户交互历史的相关部分和相关的外部知识，从而符合模型的输入约束。此外，RAG可以减少产生不相关推荐或不存在的项目（幻觉）的可能性，从而提高FM4RecSys的可靠性。

4.6 系统性能分析

在基于FM的推荐系统的开发中，一个关键方面是成本评估，这取决于训练和推断阶段中数据和模型选择的不同[Bommasani等，2021]。训练阶段的成本包括推荐模型的预训练、微调和算法开发等费用，复杂性和对专业工程的需求可能会增加开销。在推荐推断阶段，成本以系统维护、更新和基于API的服务提供的计算需求的形式持续存在。例如，像OpenAI的GPT-3/4 [Brown等，2020；OpenAI，2023]这样的系统与API使用和标记交互相关的成本会随着更复杂或更广泛的使用而升高。此外，RAG工具的引入还可以通过扩展提示长度和因此处理的标记数量增加来进一步提高费用，从而导致更高的API费用。此外，通过微调进行定制化也会增加总体费用。

FM4RecSys中的效率问题是一个实际挑战，直接影响系统性能和资源利用。参考表1，我们概述了针对性的解决方案：

1）降低训练成本：对于在推荐系统中的预训练或微调基础模型，需要精心选择最具信息量和多样性的数据，以便模型能够高效捕捉关键的用户-物品交互模式和特征，并加速学习过程[Glass等，2020；Xie等，2023]。此外，采用技术[傅等，2023a]，如LoRA [Hu等，2022]和LoftQ [Li等，2023e]进行微调，有助于管理内存使用和减少训练时间。

2）降低推断延迟：FM推断的计算需求是显著的。采用预计算的嵌入缓存[Hou等，2023a；Harte等，2023]（例如VQ-Rec或LLM4Seq）等策略可以加快推断速度，从而提供一定的缓解。类似地，通过蒸馏[Jiao等，2020]、修剪[Chen等，2020]和量化[Lin等，2023a]等方法来压缩模型大小可以改善内存成本和推断速度。

3）降低API成本：在基于FM的API推荐系统中，通过使用选定的数据点的选定集，可以提高微调效率[Chen等，2023]。此外，通过使用提示生成或压缩等方法来改进提示工程，可以使FM输入更加高效，使提示更加简洁或更加贴合，尽管收益应在现实的期望范围内考虑。此外，利用RAG增强基于API的推荐系统可能会导致额外的上下文长度，特别是在将更长的物品描述作为提示输入时。因此，在这种情况下，采用自适应RAG[Mallen等，2023]也是降低API成本的有效方法。

4.7 基准测试和评估指标

刘等人[Liu et al., 2023b]在五个推荐系统任务上使用定量和定性方法对四个最先进的大型语言模型（LLMs）进行了基准测试。然而，他们只关注特定的LLMs，如ChatGPT和ChatGLM，并且由于计算成本高昂，实验仅限于亚马逊美容数据集。因此，由于推荐系统具有特定领域的特性，需要更多的数据集、推荐任务和评估指标来创建一个更统一的基准。此外，对于多模态和个性化代理FM，为推荐场景专门设计新的基准测试和评估指标是必要的。总之，为了全面评估和提升基于FM的推荐系统的性能，需要一个全面而多样化的基准测试。这样的基准测试应该包括各种数据集、多样化的推荐任务和适用于不同模型的指标。

4.8 对新兴趋势的讨论

在FM4RecSys环境中，FM的出色理解和生成能力可能成为一把双刃剑。

从安全性的角度来看，FM容易受到红队攻击的威胁，恶意行为者可以通过构造有害提示来操纵模型生成不良内容。这些内容可能涉及欺诈或种族主义材料、错误信息或不适合年轻受众的内容，可能会造成重大的社会危害并使用户处于风险之中[Deng等，2023]。因此，在FM4RecSys的背景下，特别是在使用会话界面时，将FM与人类价值观保持一致变得至关重要。这种对齐包括收集相关的负面数据并采用监督式微调技术，如在线和离线的人类偏好训练[Wang等，2023g；Xu等，2023a]。这些方法可以帮助改进模型，使其更加贴合人类的指令和期望，确保FM4RecSys生成的内容是安全、可靠和符合伦理的。

从隐私的角度来看，如果FM直接在大量敏感用户交互数据上进行训练，第三方可能会利用提示注入等方法来访问特定用户的交互历史，从而构建用户画像。在这种意义上，将联邦学习[Yu等，2023]和机器遗忘[Chen等，2022]等方法引入FM4RecSys代表了未来的一个有前途的方向，可以提高隐私保护能力。