分享

美大学教授警告:大模型根本不会推理,全靠记忆力强!

 金苹果6 2024-08-31 发布于北京

大模型根本不会推理!

亚利桑那州立大学教授Subbarao Kambhampati最近发表了一系列言论,直指当前大语言模型(LLM)推理能力的迷思。这番言论引发了业内热议,不少网友纷纷表示:原来AI这么强的推理能力,都是假的?

图片

Kambhampati教授一针见血地指出:

许多关于LLM推理能力的说法都忽视了一个事实:LLM不仅仅是训练于'事实',更多时候还包括了这些事实的演绎闭包。因此,所谓的'推理'实际上变成了(近似)检索。

也就是说,我们以为AI在进行推理,其实它只是在从记忆中调取已有信息。这就好比一个学生,不是通过理解公式来解题,而是把所有可能的题目和答案都背下来了。

网友@AndyXAndersen 就评论道:

LLM充其量只能基于非常相似的数据做出猜测。通过外部验证、优化和反复搜索问题空间,这可以在较简单的情况下近似演绎推理。

看来,AI的'聪明'程度,可能远不如我们想象的那么高!

但问题来了,既然AI只是在做'检索',为什么它还能回答一些训练数据中没有的问题呢?

Kambhampati教授解释说,这是因为在网络规模的训练数据中,一些2阶、3阶甚至k阶可达的事实与基本事实交织在一起,使得LLM能够通过模式匹配走得更远,而无需真正学习推理过程。

简单来说就是,AI看起来会推理,其实是数据量太大,很多看似需要推理的结果,它其实都'见过'。

对此,@TheBlackHack一针见血地指出:

LLM无法计算,因为它们不是计算机器。我们可以将它们视为有限的token序列映射,一旦学习就不会改变,所以如果映射中缺少某个序列,就无法从头构建它。

这也引发了不少争议。有人表示认同,也有人提出了不同看法。

@EmilevanKrieken就问道:

我有点困惑,你描述的听起来不就是分布内/外(in/out of distribution)的问题吗?如果你在2级可达性上训练,那么任何2级可达的东西都是分布内的,但3级就是分布外的。

Kambhampati教授回应说,问题在于,当前的分布内/外分析让我们关注那些从推理角度来看并不有趣的泛化方面。

具体来说,把LLM在一小部分2可达事实上'混合训练'后,我们为它能猜出更多2可达事实而欢呼,却没注意到它需要单独的混合训练才能达到3可达、4可达等。

@JoelKreager形象地比喻道:

跟随函数产生的所有路径。这是一个庞大但有限的集合。聚类输入、逻辑连接会导致聚类输出。也会有一些类似特征向量的东西,但是针对整个模型。

那么问题来了:既然AI不会真正的推理,为什么它还能在一些需要推理的任务中表现优异呢?

Kambhampati教授解释说,这是因为在训练数据中,一些需要2步、3步甚至更多步骤推理得出的结果,已经被直接包含在内了。所以AI看起来会推理,其实是靠超强的记忆力在'套模板'。

这就好比,你觉得一个学生数学特别好,因为他总能很快得出正确答案。但其实,这个学生是把所有可能的题目和答案都背下来了,而不是真的懂得解题方法。

对此,@Mr Nemo提出了一个有趣的观点:

演绎闭包是一个封闭的环境,其中所有变量都是已知的;闭包内的所有元素都是已知的,它们的来源是已知的,所有元素之间所有可能相互作用的所有可能结果都是已知的:对吗?

这个比喻非常形象。AI模型就像是一个巨大的、预先计算好的查找表它能快速给出答案,但并不真正'理解'问题。

那么,这对AI的未来发展意味着什么呢?

Kambhampati教授认为,我们需要重新思考如何评估AI的推理能力。他指出,当前的许多基准测试可能并不能真正反映AI的推理水平。

比如,即使AI在4位数乘法上表现出色,但如果你测试5位数乘法,你会发现它又回到了起点,就像@YejinChoinka和她的同事发现的那样。

就像你教会了一个孩子背诵九九乘法表,但他并不真正理解乘法的概念。当你让他计算10×10时,他就完全不知所措了。

@bensmith_sv就问道:

对于9位数乘法,我看到大多数模型可以计算部分乘积,但在把它们加在一起时失败了 - 为什么会这样?

这个问题非常深刻。它揭示了AI模型在处理复杂任务时的局限性。AI可能已经'记住'了很多部分结果,但当需要综合这些结果时,它就显得力不从心了。

那么,我们该如何改进AI的推理能力呢?

Kambhampati教授建议,我们需要关注AI是否真正学习了底层程序,并能将其应用于任何未见过的实例——无论是3-、4-、5-还是100可达的推论,还是5×5、6×6,...100×100位数的乘法。

我们不应该满足于AI能解决特定的数学题,而应该追求它真正理解数学原理,能够灵活运用于各种新问题。

最后,@tetraduzione总结道:

我猜问题在于人们可能只是混淆了在另一个分布的测试集上获得100%准确率是真正的分布外泛化(如演绎闭包)的必要但非充分条件。

但论文上定义的'分布外泛化'概念本身是正确的。

这也正是当前AI研究中的一个重要误区。

我们不能仅仅因为AI在某些测试中表现出色,就认为它真的掌握了推理能力。

AI的进步之路还很漫长啊!

你怎么看待AI的推理能力呢?

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多