分享

OpenAI新作,直指DeepMind格局小了!大模型复杂推理应逐步验证

 e_shannon 2023-06-04 发布于上海

然而,OpenAI公开了一篇论文[1],结论同DeepMind去年11月的工作[2]完全相反。在对比差异时,论文指出DeepMind格局小了,相比之下,OpenAI用了更强力的基础模型(use a more capable model),调研了更有挑战的数据(dataset is significantly more challenging),并基于更大的监督数据规模(much larger quantity of process supervision data)。

那究竟是什么样的结论,使两家公司得到如此分歧呢?让我们来仔细看看这篇文章吧。

论文题目:
Let’s Verify Step by Step.

论文链接:
https:///pdf/2305.20050.pdf


背景

对于ChatGPT等大语言模型,有一个魔法词叫做“let's think step by step”。如下图右所示,在解题等需要复杂推理的场景下,通过这个魔法词,让模型输出答案之前,输出推理过程,有助于提高答案的准确性与可解释性。该方法被称为思维链(CoT,Chain of Thought)。

图片

所以,一个自然的问题是:在训练大模型时,有没有可以利用思维链的地方呢?

我们知道,训练ChatGPT这种大模型包括两步:语言模型训练指令精调。在指令精调中,会根须人类反馈数据(考虑认知、价值观等)训练一个奖励模型(Reward Model),并通过强化学习方式,来反馈调整语言模型。

图片
▲基于人类反馈的强化学习示意图

利用思维链的方式也聚焦在这一强化学习过程。具体而言,可以分为两种:只针对结果的ORMs(outcome-supervised reward models),与基于每一步推理过程的PRMs(process-supervised reward models)。前者只根据模型解题的最终结果给予强化学习监督,而后者关注每一个推理步骤。

分歧点与差异分析

OpenAI和DeepMind的分歧点在于,在解决需要复杂推理的数学题的背景下,对于奖励模型(Reward Model),OpenAI认为针对过程的PRMs更好,而DeepMind认为两者相差不大。

OpenAI指出,之所以产生这一分歧,是DeepMind的实验格局不够:

  • OpenAI基于GPT-4展开实验,而DeepMind只用了700亿参数的基础模型。
  • OpenAI针对MATH数据集,该数据集取自美国中学数学竞赛试题(AIME),而DeepMind只研究了GSM8K数据集,都是些小学数学题。
  • OpenAI基于了更大的数据规模:800K过程标注标签。而DeepMind只对530道训练集数据取了1560个模型生成样本,得到9.8K的过程标注标签。

这次OpenAI非常慷慨地开源了他们的数据:

https://github.com/openai/prm800k

下图为针对过程的PRMs数据样本,绿色的行代表正确的步骤,红色的代表错误的。

图片

实验结果与实验结论

即使公开了论文和数据集,这篇文章和OpenAI之前的几篇文章一样,对技术细节隐藏很深,只公开了很少的实验结论。

主要结论:针对过程的PRMs更好。图片

对上图解释一下,这里用到Best-of-N作为评价指标,即让语言模型生成N个解之后,让奖励模型选取其中分数最高的一个作为答案,用以评价奖励模型。Majority Voting是一个多数投票的方法。

次要结论1:可以通过主动学习,加速学习过程。下图横轴代表每道题的标注数据规模,等价于训练数据规模。主动学习的方式为,使用较小的PRM模型,对每道题保留部分分值最高的负样本。该方法可以提高2.6倍的收敛速度。图片

次要结论2:针对过程的PRMs可以较好地泛化到领域外的数据上。可以看到,在各学科的AP数据上,PRMs都取得了较好的表现。图片

除此之外,文章最后还探讨了包括测试集污染在内的一些问题,在此就不过多展开了。

额外的结论

因为OpenAI写得论文都比较隐晦,有时需要一些专业的背景才能够从字里行间看出一些端倪。爱丁堡大学的博士生fuyao在Twitter上也给出了这篇文章的一些参考结论:

  • 奖励建模非常重要。单纯有监督微调只能提供模型的格式,而无法提升能力(capability)。
  • 使用逐步奖励而不仅仅依赖于最终奖励对模型进行训练,这个原则也适用于编程任务。
  • 如果数据集像GSM8k那样简单,或者奖励数据不足够大,可能会得出错误结论,认为两种类型的奖励是相似的。这是之前DeepMind的结论。
  • 在进行奖励建模之前,应该对Latex和SFT(结构化文本)进行持续训练。持续训练可以提升能力,而SFT可以提供格式。这个做法来自Google Brain的Minerva论文。
  • 推理任务的奖励模型与对话任务的奖励模型不同。不应该假设底层只有一个单一的奖励模型。原始的Claude论文也讨论了这种做法。
  • 应扩大奖励模型规模。不应该假设大模型可有效从小型奖励模型中学习。这在OpenAI最初的InstructGPT论文中也有讨论。
  • 在单一数据集(MATH)上训练的奖励模型可推广到领域外数据集。可能归因于模型规模。

总结

这篇文章告诉我们,要辩证地看待世界,真理也是有一定适用范围的。得到错误的结论,可能不是方法思路有问题,而是没有打开格局。

这篇文章对科研的价值,一个是可以像fuyao那样,除了主要结论之外,通过一些隐约的表示,探究OpenAI隐藏的细节。另一方面,也可以从开源的数据集入手,仔细分析GPT4在数学推理的表现与人类标注的特点,探究GPT4的能力的同时,思考是否有必要,以及能不能将之推广到其它需要推理的大模型应用场景中。

图片

参考资料

 [1] Let’s Verify Step by Step. arXiv preprint arXiv:2305.20050, 2023.
 [2] Solving math word problems with process-and outcome-based feedback. arXiv preprint arXiv:2211.14275, 2022.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多