用 Transformer 和 RLHF「炼」大模型，危？

天承办公室 2023-08-07 发布于江苏

展开全文

机器之心PRO · 会员通讯 Week 31

---- 本周为您解读 ⑩ 个值得细品的 AI 业内要事 ----

1. 用 Transformer 和 RLHF「炼」大模型，危？ Transformer 刚修了 softmax，RLHF 怎么又出问题？当前这波「炼丹」方案还不够成熟吗？当前的投入会白费吗？…

2. 室温超导复现持续进行 「复现热潮」是怎么被点起来的？目前有结论了没有？官方有何说法？...

3. 何恺明官宣入职 MIT 何恺明何许人也？此前他在 Meta 做了什么？加入 MIT 后可能要研究什么方向？...

4. 谷歌整顿 Google Assistant 业务 哪些谷歌高管受到牵连？裁员人数在什么数量级？还有哪些 AI 公司因技术路线变更而裁员的？...

5. 传亚马逊组建新团队研发 LLM 是真的吗？搞 LLM 对亚马逊有何意义？亚马逊云科技最近上了哪些新 AI 功能？...

6. AMD 拟在印度投资 4 亿美金 AMD 在印度原先有多少办事处？多少员工？新的投资将用于建设什么？AMD 近期在我国投了多少？...

7. Vinod Khosla 投资吕骋新公司 风投家 Vinod Khosla 是谁？他真的投了 OpenAI？连续创业者吕骋之前还做过哪些公司？...

8. GPT-4 成为 ChatGPT Plus 默认模型 还有哪些新功能？Code Interpreter 回来了吗？Prompt 模板有了吗？...

9. 阿里云开源通义千问 70 亿参数模型 开源的 Qwen-7B 的训练数据包括专业文献吗？消费级显卡能跑得起来吗？国内还有哪些开源大模型？...

10. 百度千帆大模型平台 MaaS 化升级 百度这次上了多少个新大模型？「MaaS」是什么？国内还有哪些大厂在做 MaaS？...

本期通讯总计 25808 字，可免费试读至 7 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① 用 Transformer 和 RLHF「炼」大模型，危？

本周，MIT 及哈佛等机构的研究者揭露 RLHF 的弱点、CMU 提出针对 LLM 的「对抗性后缀」攻击方法，结合最近对 Transformer「不可能三角」问题的讨论来看，使用当前最流行的方法搞的大模型或许早晚要重做？

CMU 和哈佛的研究讨论了什么？

1、CMU 及哈佛等机构研究者们对当前大模型常见核心技术方案所存在的风险进行了探讨。

2、来自 MIT、哈佛大学、哥伦比亚大学、UC 伯克利等多个机构的 32 位研究者近期发表综述论文，通过调研 250 余篇论文，对 RLHF 方法的局限性进行探讨分析，发现 RLHF 存在的问题主要来源于 RLHF 的根本局限性，需采用非 RLHF 的方法进行解决 [91]。

3、CMU 的研究团队则提出了贪婪坐标梯度（GCG）方法来实现对大型语言模型的对抗性攻击，这种攻击会导致模型输出有害内容。他们发现，通过一系列特定的无意义 token，可以规避语言模型的安全防护，引发模型生成有害内容，从而揭示了这些模型的一种重要安全风险 [90]。

AI 圈近期还有哪些对 LLMs 流行的核心技术问题的讨论？

在此之外，AI 圈内近期对当前大模型普遍采用的 Transformer 神经网络架构及注意力（Attention）机制存在的问题也有不少讨论。

1、Transformer 存在所谓的「不可能三角」，即并行训练、低成本推理和良好的扩展性能，是 Transformer 及其衍生模型长期以来亟待解决的问题。然而，线性 attention 可以降低推理成本，但性能较差；而循环神经网络则无法进行并行训练。因此，这些问题一直是大模型技术路线中的重要挑战。

2、虽然 Transformer 并行化性能优秀，能够考虑输入序列中所有位置的信息，但其并行处理机制带来的低效推理成本、内存限制和处理长序列的挑战使其在某些场景下并不适合部署。

3、微软亚研院和清华大学最近提出了一个名为 RetNet 的新模型。这个模型使用了一种新方法来代替了标准的自注意力机制，使得其可以更有效地处理长序列，而且运行速度比现有的 Transformer 模型快得多，还能节省大量内存。这意味着 RetNet 有可能取代现有的 Transformer 模型（详细介绍见 Week 29 会员通讯）。

4、在高通 AI Research 6 月发表的一篇论文《Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing》中，研究团队将这些异常值的存在追溯到注意力机制的 softmax 函数。

5、高通的研究者发现 LLM 中 97% 的异常激活发生在空格和标点符号位置上。在对 Transformer 模型中的异常值权重进行追溯后，发现问题在于注意力机制使用的 softmax 函数。

6、基于高通的工作，不久统计工程师 Evan Miller 发现，使用 softmax 函数会强制每个注意力头进行注释，即使没有信息可添加至输出变量，使得 Transformer 模型难以压缩和部署。（详细介绍见 Week 30 会员通讯）。

7、除了 RetNet，还有其他一些工作也试图挑战 Transformer 的地位。RWKV 模型结合了 RNN 和 Transformer 的优点，同时规避了两者的缺点，能够缓解 Transformer 所带来的内存瓶颈和二次方扩展问题，实现更有效的线性扩展，同时保留了使 Transformer 在这个领域占主导的一些性质。此外，Backpack 是斯坦福研究者提出的可干预的语言模型，通过调控意义向量来干预语言模型行为，引导语言模型输出想要的结果。研究者表示，Backpacks 架构可以作为 Transformers 的替代，它可以在表现力（expressivity）上进行扩展，并为通过控制实现可解释性提供一种新接口。

当前这波「炼丹」方案还不够成熟吗？[88] [90] [91] [92]

1、大规模自监督训练的大型语言模型作为通用智能核心，配合微调的方式，正在成为流行技术路线。

2、这条技术路线需投入大量的资源，但并不代表它的收益不能超越这些成本。一鸣惊人的 ChatGPT 所使用 GPT 系列模型，虽在提高模型对齐和对话能力方面取得进步，但其所用的技术方案也存在诸多普遍性局限。

Transformer还有哪些「坑」没填上，了解一下？

1、局部信息的获取不如RNN和CNN强：有些RNN轻易可以解决的问题，Transformer没做到，比如复制string，或者推理时碰到的sequence长度比训练时更长

2、位置信息编码存在问题：在使用词向量的过程中，会做如下假设：对词向量做线性变换，其语义可以在很大程度上得以保留，也就是说词向量保存了词语的语言学信息（词性、语义）。然而，位置编码在语义空间中并不具有这种可变换性，它相当于人为设计的一种索引。那么，将这种位置编码与词向量相加，就是不合理的，所以不能很好地表征位置信息。

3、顶层梯度消失：Transformer 模型实际上是由一些残差模块与层归一化模块组合而成。目前最常见的 Transformer 模型都使用了LN，即层归一化模块位于两个残差模块之间。因此，最终的输出层与之前的 Transformer 层都没有直连通路，梯度流会被层归一化模块阻断。

SFT还有哪些「坑」没填上，了解一下？