分享

在ChatGPT等“老流氓”看来,世界是如何的?

 昵称32226502 2023-12-22 发布于湖南

1. 很多人不理解LLM(Large Language
Model,大型语言模型)常识。不好记,可以叫它“老流氓”,有时确实是个撒谎毫无心理压力的老流氓。它是NLP(自然语言处理)领域的,处理的是人类社会产生的Natural
Language,自然语言,而不是特别生成的规整的语言。按严格规矩写的语言,例如程序代码,处理成机器码叫“编译”,容易解决。

2.

人类自然语言天马行空,什么都可能聊,要理解真的很困难。所以ChatGPT能和人流畅地对话,还不跑题,真的很厉害。有人说,被我抓到了,ChatGPT编造事实了。这不是弱点,反而说明它有突破,没有相关数据事实,也编内容顶上。如果聊得像个弱智,就是算法失败。像高明的骗子,就是成功。能伪装,不弱智,是很强大的本质突破。

3.

GPT等LLM是如何做到和人流畅交流的?这就涉及到它的模型原理。我们眼里的世界是物理的,LLM不是,它的世界只有几十万上百万个“token”。这些token就是语言的基本单元,是单词,也可能是词根,如teacher,可能是teach和er两个token。标点符号也是token。一个很大误解是,说ChatGPT有中文版、英文版,其实不是,就一个版本。中文英文都是token一起训练了,本来中文资料里就混了不少英文。各国语言都包进去,训练完了自动有翻译能力。但是各国语言的训练素材数量是很不同的,如ChatGPT的英语素材多,中文素材少,中文问答编造撒谎就多。文心一言就是中文素材多,英文素材少,其它语言素材还没有。

4.

那ChatGPT是怎么看待这几十万个token的?很简单,就是在这些基本单元之间,建立复杂又有逻辑的关联。例如“饕餮”,凡是出了“饕”后面必然是“餮”,这是一种极强的关联。还可以在大的约束下,有复杂一些的关联,如在古诗条件下,建立一些对偶关系。以前作诗机是人们主动整理,来建立这些关系。关联会有很多层,单词对单词,结构对单词,结构对结构,上下文关联。现在都是拿素材来训练,神经网络学习,自动整理出谁也搞不明白的复杂约束关联了。可以说LLM就是Pre-Trained,预先训练好的,记录了token之间的复杂关联,而这就是LLM的核心能力。承载关联的数据结构叫Transfomer。让它干的任务是生成语言,所以GPT就是Generative
Pre-trained Transfomer。

5.
GPT意想不到的突破是,参数多到几千亿个之后,LLM似乎真的把语言的内核学会了,什么都“通”了,关联建立得很不错了,聊什么都知道!这就是量变到质变的“涌现”。其实它没有人类世界的知识,知道的只是一些token的关联办法。但是真很厉害,为了聊天开发的,翻译比专门的翻译模型还厉害。

6.

虽然GPT明白了人类语言的关联内核,但是和人的对话还是有些困难,因为它说的可能人类不习惯。于是OpenAI就加上了RLHF,强化学习,Human

Feedback,人类反馈帮助下学习。这样,GPT就学会了讨好人类对话习惯,成了ChatGPT,等于有干货,也知道怎么说出来让人好接受了,也知道人类问的是什么。

7.

人类对LLM说的,就是一些Promt,当输入放到神经网络里算,就会输出一个词。然后把这个词也当输入,再输出一个词,最后就不断吐词。也可以叫它“吐词机”。这个能力是核心,至于做算术什么的,要补充别的模块。不能要求LLM核心懂语言以外的知识,肯定不行的。但是现在开发要求就是得会,得加别的模块。

8. 例如画图,看懂输入图片,那是外加了别的模块。如看图理解模块,看词绘图模块,都有专门研究的算法。看图理解,就等于有了Prompt,就生成合适的对话输出就行了。图为文心一言生成的两副画。

500

500

免责声明
以上内容为用户在观察者网风闻社区上传并发布,仅代表发帖用户观点。发表于广东省

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多