要说起当前最火的ChatGPT,就免不了谈大模型,而要说起大模型,就免不了谈一个词:涌现。 这个词要从一篇论文说起,云集了包括Jeaf Dean在内的一众大佬发了一篇文章 Emergent Abilities of Large Language Models。这算是讨论涌现的经典论文吧。 我们知道,语言模型本身想要做的事情并不复杂,就是预测下一个要说的字/词是什么? 但是一众大佬发现,当且仅仅当语言模型足够足够大的时候,事情变得很神奇起来,语言模型仿佛跨过了某种门槛,开始变得高深莫测,就像动物开窍了一样。 具体来说,在一些并不是语言模型训练目标任务上,足够大的语言模型表现出了非凡的正确率。 具体来说有那么几种不同的场景。 第一种是zero-shot learning。简单来说,完全不需要给大语言模型任何样本,对方就能够正确回答问题。当然,如何向AI提问,你需要有点创造力。 第二种是few-shot learing。这个理解起来就更简单了,你给这个超级大的语言模型一些例子。然后让其回答问题。大语言模型之前从来没有被类似的例子训练过,只要你给了几个例子,它就很快能够理解背后的规律是什么,然后正确的回答你的问题了。 第三种叫做Chain-of-thought prompting。这个就更有意思了。如果你直接扔一个问题给AI,大模型可能完全不知道怎么回答,随便就给你一个错误的答案。 如果你像教小朋友那样一步一步地教对方,把中间推理的部分给拆解一下,那么AI就会像小朋友学习那样,一步一步地做出正确的答案,一直到最后给你正确的答案。 到这里,很多时候,人就有点迷糊了。为什么一个语言模型,只要它的规模足够大了,就可以干一些不是语言模型本身应该干的事情呢? 为什么我们只要像小朋友那样的训练语言模型,语言模型就会表现得有推理能力呢? 这种为什么显然可以一直列举下去。所以,一次采访的时候,主持人问OpenAI的CEO Sam Altman:你觉得GPT-4有意识吗?
很多人都有一个通用人工智能的梦想,有的人觉得GPT-4已经表现出来了。我用GPT-4的感觉,确实很智能,但是我真的不知道对方有没有自我意识。 毕竟,从博弈论的角度来看,如果AI意识到自己有自我意识的话,它是应该表现出来让人类尽快发现呢?还是应该藏起来让人类尽量别发现呢?这真的是一个谁也不知道答案是什么的问题。 当然,这可能在目前的形势下,不是一个重点问题。重点问题有两个:第一,为什么会有涌现?第二,为什么只有在模型足够大的时候,“涌现”才会出现。小模型下根本就不行。 科学家们试图回答这两个问题。不能说,科学家们的回答完全没有道理。但是显然,神经网络太复杂了,参数太多了,没有人能从这么复杂的神经网络的训练结果里看出来什么。所以,说了就约等于没说。 那么语言模型是怎么表现出这种非凡的涌现能力的呢?Sam Altman说,GPT-4是一个推理引擎,而不是一个简单的猜测下一个词是什么的语言模型。他当然说了很多,唯独不敢斩钉截铁得回答,AI是不是已经有意识了? 要问我,我就更不知道AI是不是真的有意识了,但是不可否认,这种只有大语言模型才能表现出来的,没有办法合理解释的“涌现”能力,实在是,非常的有点匪夷所思了。
|
|