OneFlow编译 翻译|杨婷、宛子琳、张雪聃 本文要点概览:
(本文作者为符尧是爱丁堡大学博士生。本文由OneFlow编译发布,原文:https://yaofu./Apr-2024-Llama-3-Opens-the-Second-Chapter-of-the-Game-of-Scale-efff1c0c185f4008af673b78faf83b61 声明:本文是作者阅读LLaMA 3的发布说明后,对将来工作方向的研究笔记。文中提出的观点可能与现行观点存在差异,欢迎批评指正。) 1 LLaMA 3的性能如何?LLaMA 3的性能相当不错。 在评估基础模型时,我们会关注MMLU、MATH、GPQA和BBH等关键指标,因为这些指标能够衡量模型的高级知识与推理能力。目前的排行榜如下: LLaMA 3 70B的一个显著特点是,其性能明显优于其他同级别的70B模型(其MMLU通常在70+左右),并进入了80+ MMLU的前沿模型领域。 LLaMA 3 70B模型之所以能在MMLU上取得如此优异的成绩,可能有以下两个原因:
需要注意的是,虽然在LLaMA 3发布后不久,其评分呈明显的上升趋势,初始排名大约在第三位(通过文本的特定模式,我们可以轻易评断LLaMA 3给出的答案),但现在其ELO分数正逐渐下降。尽管如此,其置信区间仍为(+9/-11),远远高于其他模型的(+5/-5),因此它的排名可能会继续下降。
实际上,完全没有必要对其性能进行夸大或者虚增分数,因为LLaMA 3本身已经是一个非常出色的模型,这样做可能会增加其在公众中的声誉(或许不会),但肯定会损害在专业人士中的声誉。再次强调,LLaMA 3已经是目前最强的开源大模型。 我预计,它最终的ELO分数可能会稳定在GPT-4 0314版本的1180分左右,这与Claude 3 Haiku的性能相当,同样是一个非常好的成绩。 2 文本数据扩展的极限文本数据扩展的极限可能已经到来。因为我们注意到GPT-4 Turbo、Gemini Ultra、Claude 3 Opus和Llama 3 400B的性能都在大致相同的范围内(MMLU约为85)。要继续扩大文本规模,就需要更多的数据,但问题在于,是否能大幅增加文本数据量,超过LLaMA 3的15T词元。 以下是按照新数据潜在规模排名的几个方向:
接下来,本文将逐一探讨这些方向。 Common Crawl只是互联网数据的一部分
我们仍在从CC中挖掘数据
放宽过滤和去重标准
使用合成数据
搜寻更多的图书馆藏书
3扩展规模肯定没错,但接下来该扩展什么呢?前文已经讨论得出结论,GPT-4级别的前沿模型很可能已经接近文本规模的上限,而进一步扩展文本数据可能会遇到更加艰巨的挑战(但也仍然可能是一种方法)。我们当然希望继续这场狂欢,因为规模扩展是不变的法则,它始终能够生效,但问题在于下一步该扩展什么数据。 视频数据可能不会改善推理能力,但可以提升其他方面
要提高推理能力,需要在强化学习中扩大探索和利用的规模
4 扩展统一的视频-语言生成模型 那么,只是扩大视频-语言模型的规模?听起来并不是很难? 目前的情况是,在文本扩展领域,我们拥有十分标准的架构(MoE transformer)、标准的目标(下一个单词预测),以及标准的pipeline(预训练后再对齐),而在视觉/多模态生成模型中,情况却不尽相同。其设计空间比语言模型大得多,我们甚至未能在一些基本问题上达成共识,例如:
最终的解决方案也许非常简单,只需要修改现有解决方案的一小部分,但要确定这些细小而关键的修改,社区需要对这些问题进行饱和式研究。 5 通过从X反馈中进行迭代强化学习生成类似于AlphaZero的智能体我们已经讨论过用于预训练的新数据可能有限,以及多模态可能不会改进推理能力,为了进一步提高推理能力(毕竟这是语言模型的核心能力),我们将焦点转向了扩展强化学习。 问题又回来了,要扩展什么呢?好消息是,基本上强化学习中的任何维度都可以和应该被扩展。我们首先要讨论一个特定的指标:pass@K,它表示在K次尝试中,模型至少成功一次的概率。DPO的优化基准是pass@2(选择一个好的回答,拒绝一个不好的回答),而InstructGPT的基准是pass@7(从7个候选项中选择最佳的一个回答)。 如果我们将K值扩展到1百万,会发生什么呢? 从AlphaCode论文中,可以看到当扩展K值时,模型的通过率不断提高: Yuxuan Tong(https://www./Scaling-up-k-in-Pass-k-on-MATH500-5c44436a2cd643b381e74427e7f7b14f?pvs=4)在数学上验证了DeepSeek和Mistral在扩展搜索空间K时不断改进的情况: 这些改进显示:
6结论:规模扩展竞赛的第二阶段 |
|