在ChatGPT等“老流氓”看来，世界是如何的？

昵称32226502 2023-12-22 发布于湖南

展开全文

1. 很多人不理解LLM（Large Language
Model，大型语言模型）常识。不好记，可以叫它“老流氓”，有时确实是个撒谎毫无心理压力的老流氓。它是NLP（自然语言处理）领域的，处理的是人类社会产生的Natural
Language，自然语言，而不是特别生成的规整的语言。按严格规矩写的语言，例如程序代码，处理成机器码叫“编译”，容易解决。

2.

人类自然语言天马行空，什么都可能聊，要理解真的很困难。所以ChatGPT能和人流畅地对话，还不跑题，真的很厉害。有人说，被我抓到了，ChatGPT编造事实了。这不是弱点，反而说明它有突破，没有相关数据事实，也编内容顶上。如果聊得像个弱智，就是算法失败。像高明的骗子，就是成功。能伪装，不弱智，是很强大的本质突破。

3.

GPT等LLM是如何做到和人流畅交流的？这就涉及到它的模型原理。我们眼里的世界是物理的，LLM不是，它的世界只有几十万上百万个“token”。这些token就是语言的基本单元，是单词，也可能是词根，如teacher，可能是teach和er两个token。标点符号也是token。一个很大误解是，说ChatGPT有中文版、英文版，其实不是，就一个版本。中文英文都是token一起训练了，本来中文资料里就混了不少英文。各国语言都包进去，训练完了自动有翻译能力。但是各国语言的训练素材数量是很不同的，如ChatGPT的英语素材多，中文素材少，中文问答编造撒谎就多。文心一言就是中文素材多，英文素材少，其它语言素材还没有。

4.

那ChatGPT是怎么看待这几十万个token的？很简单，就是在这些基本单元之间，建立复杂又有逻辑的关联。例如“饕餮”，凡是出了“饕”后面必然是“餮”，这是一种极强的关联。还可以在大的约束下，有复杂一些的关联，如在古诗条件下，建立一些对偶关系。以前作诗机是人们主动整理，来建立这些关系。关联会有很多层，单词对单词，结构对单词，结构对结构，上下文关联。现在都是拿素材来训练，神经网络学习，自动整理出谁也搞不明白的复杂约束关联了。可以说LLM就是Pre-Trained，预先训练好的，记录了token之间的复杂关联，而这就是LLM的核心能力。承载关联的数据结构叫Transfomer。让它干的任务是生成语言，所以GPT就是Generative
Pre-trained Transfomer。

5.
GPT意想不到的突破是，参数多到几千亿个之后，LLM似乎真的把语言的内核学会了，什么都“通”了，关联建立得很不错了，聊什么都知道！这就是量变到质变的“涌现”。其实它没有人类世界的知识，知道的只是一些token的关联办法。但是真很厉害，为了聊天开发的，翻译比专门的翻译模型还厉害。

6.

虽然GPT明白了人类语言的关联内核，但是和人的对话还是有些困难，因为它说的可能人类不习惯。于是OpenAI就加上了RLHF，强化学习，Human

Feedback，人类反馈帮助下学习。这样，GPT就学会了讨好人类对话习惯，成了ChatGPT，等于有干货，也知道怎么说出来让人好接受了，也知道人类问的是什么。

7.

人类对LLM说的，就是一些Promt，当输入放到神经网络里算，就会输出一个词。然后把这个词也当输入，再输出一个词，最后就不断吐词。也可以叫它“吐词机”。这个能力是核心，至于做算术什么的，要补充别的模块。不能要求LLM核心懂语言以外的知识，肯定不行的。但是现在开发要求就是得会，得加别的模块。

8. 例如画图，看懂输入图片，那是外加了别的模块。如看图理解模块，看词绘图模块，都有专门研究的算法。看图理解，就等于有了Prompt，就生成合适的对话输出就行了。图为文心一言生成的两副画。

500