GPT：Chat的计算合成与人机协同创新

2016xing 2023-04-06 发布于浙江

展开全文

近年来，人工智能领域出现了若干科技创新现象级产品，如人们耳熟能详的AlphaGo、ChatGPT和GPT-4，这些科技创新现象级产品表现出了较强的内容合成能力：AlphaGo根据当前落子局势，从已有落子学习中合成一个策略，以更好应对对手落子；ChatGPT这一复杂的神经网络大模型，按照“共生则关联”的原理，挖掘单词和单词因在句子篇章中共现而具有的关联概率知识，实现了统计关联下语言合成；GPT-4从图像和文本匹配数据中挖掘视觉子块与文本单词之间的耦合关联，具备了以文生图的能力。

上述技术推动人工智能由识人辩物和预测决策等向内容合成跃升，即人工智能内容合成（Artificial intelligence generated content, AIGC）。AIGC塑造了内容生产的新范式，成为智能数字交往的有力手段，悄然发生一场文明范式的转型，使得版权、工作、教育和信任等概念出现巨大调整，人类社会面临着监管难题和伦理困境。

内容合成原理：共生则关联

在自然语言中，若干单词先后相连构成了一个句子，如“中国南北饮食文化存在差异，豆花有南甜北咸之分。南方人一般喜欢吃甜豆花”。为了理解“南甜北咸”这个单词，就要正确理解该单词前后共同出现的单词，即通过上下文学习（in-context learning）来理解单词和句子所蕴含语义。

2017年，谷歌公司提出了Transformer的神经网络架构，设计了自注意力（self-attention）机制来挖掘句子中单词和单词之间共生统计概率。自注意力机制可理解为每个单词自己注意到与哪些单词以多少概率共同在句子中一起出现。

ChatGPT和GPT-4在工程上创新性整合大数据、大模型和大算力，按照“共生则关联”挖掘单词和单词或者视觉子块与文本单词之间的共生概率，辅以人类反馈信息，以机器智能通过统计关联实现了语言合成和图像合成。

ChatGPT的技术发展历程

ChatGPT和GPT-4的出现体现了“数据是燃料、模型是引擎、算力是加速器”这一当今人工智能发展特点：训练ChatGPT使用了45TB数据、近 1万亿个单词（大概是1351万本牛津词典所包含单词数量）；集成了深度神经网络、自监督学习、强化学习和提示学习等多种算法；耗费了3640 PetaFLOPs per day巨大算力，即用每秒能运算一千万亿次算力对模型进行训练，需要3640天完成；ChatGPT前身GPT-3模型参数高达1750亿。如果将这个模型的参数全部打印在A4纸张上，一张一张叠加后，叠加高度将超过上海中心大厦632米高度。

在大数据、大模型和大算力的工程性结合下，ChatGPT涌现了统计关联能力，可洞悉海量数据中单词-单词、句子-句子、视觉子块-文本单词等之间的概率关联，进而以概率形式进行内容合成，也有学者认为其通过随机概率将语言序列拼接在一起而称其为随机鹦鹉（stochastic parrot）学舌。

数据、知识和反馈合力催生能力

为了训练ChatGPT，OpenAI采用了完形填空、提示学习和人类反馈等三种主要训练模式。

在完形填空训练中，对于给定的海量句子数据，从任意一个句子中“移除”一个单词，然后让模型根据剩下单词所形成的上下文来预测最合适的“填空词”。为了让算法模型具备完成多种任务的能力，OpenAI提出了一种“提示学习（prompt learning）”方法。

在提示学习中，通过设计“提示案例”这一种知识模板不仅让人工智能模型掌握“闲聊套路”，而且可将实现能力迁移，完成诸如情感分类和内容推荐等其他任务。

比较有意思的，目前出现了一种编写“提示案例”的工程师工作岗位，被一些媒体称为人工智能私语者（AI whisperer），即通过提示案例来激活已有概率关联的知识。

为了进一步提高模型合成语言性能，ChatGPT还将交流中人类对模型所合成内容的反馈作为一种监督信息输入给模型，对模型参数微调，提高语言模型回答的真实性和流畅性。

同时要说明的是，微软公司将所其收购开源及私有软件项目托管平台Github中数十亿行源代码开放出来作为训练数据，使得ChatGPT形成了逻辑思维链，因此ChatGPT所合成语言中鲜见前后矛盾语句。

据估计，全球高质量文本数据总存量约5万亿单词/符号，涵盖了世上所有书籍、科学论文、新闻文章、百科、公开代码以及网络上经过筛选的达标数据（如网页、博客和社交媒体）。可以设想，如果一味依赖海量数据来训练人工智能模型，可能在不久将来，世界上所有有用数据将被耗尽。

据估计，人类大脑中80%以上知识是视觉知识，视觉知识能进行形象思维模拟，为直觉推理和创意创造等提供基础动力。因此，在人类文本语料燃料即将耗尽之际，如何利用指导和控制人类行为的跨媒体知识，建立数据知识双轮驱动研究新范式，是目前面临的巨大挑战。

计算独大、表示丰富、机理式微

ChatGPT的前身GPT-3包含1750亿参数，这些参数主要分布在如下三个部分：

1）意味深长的表示（约占模型参数1%左右）：GPT-3中一共包含50275个单词，每个单词被表达为12288维词向量。每个单词具有如此高维度向量，就可从不同侧面刻画每个单词与另外单词之间的细微概率关联。如浙江大学这一单词被表示为12288维向量后，那么其在某一维度或若干维度上可刻画浙江大学这一单词与“求是精神”、“文军长征”、“竺可桢”和“双一流”等单词之间的概率关联。

2）极尽其能的关联挖掘(约占模型参数30%左右)：GPT-3设计了96种机制去挖掘捕获某一单词与哪些单词存在概率统计关联。GPT-3可以接受的上下文单词长度为2048，而ChatGPT提示案例学习中可接受的上下文单词关联长度更是超过了8000。

3）细水长流般“思考”(约占模型参数60%左右)：GPT-3使用被称为前向传播机制，步步为营而非一蹴而就来细化所挖掘得到的概率统计关联，好比激活神经元之间链接权重，以强化单词之间共生概率关联。

ChatGPT的模型参数分布

目前对ChatGPT以千亿级参数具备内容合成这一能力的涌现机理尚无法清晰了解，因此ChatGPT被称为现象级人工智能产品（phenomenological）。

诺贝尔物理学奖得主、著名凝聚态物理学家菲利普·安德森（Philip W. Anderson）于1972年在科学（Science）杂志发表了名为“多者异也（More is Different）”的论文，指出还原论假说从来都不意味着建构论（constructionist）假说，这或许给我们少许启示。

ChatGPT体现了“计算独大、表示丰富和机理式微”的特点，这也反映了计算机所体现的“试错（Trial &error）与暴力（brute force）”优势。OpenAI的首席科学家兼联合创始人伊利亚·苏茨科弗（Ilya Sutskever）接受采访时曾表示，相比ChatGPT，GPT-4能够更精准预测下一个单词，因此GPT-4更加理解自然语言内容。

显然这一“种瓜得瓜”式的学习模式让GPT-4给出一个新的预测就很困难了，比如“输入光速不变假设以及当时所有的物理知识，GPT-4显然无法输出相对论”。

人有人的作用

数学家和哲学家诺伯特·维纳（Norbert Wiener）在1950年出版了一本极具洞察力和先见之明著作《人有人的用处：控制论与社会》，目的就是希望人类在技术世界的环绕中更加有尊严、更有人性，而不是相反。

机器是人类创造出来，人类的作用就是在人和机器共处的社会中，不断用自己的知识来让机器变得更加强化。

我们需要用进化观点去看待这个过程，最大限度地发展身上的种种可能性，而不是陷入“人机相斗”和“人机相害”的臆想中。

作为精确刻画智能行为、且通过机器来实现智能行为的人类，是不可能被取代的。但是，如果你一味生活在昨天，那么就会被取代，这是历史发展的规律。

不论怎样，人类始终是人工智能高度、广度和深度的总开关和决定者，也是人和人造物的协调者。

因此，我们一方面要警惕将人工智能等同于人类大脑的不切实际之举和“人工智能奴役人类”杞人忧天之举，另一方面也要善于利用人工智能这一人类帮手，在人机协同中创造更加美好未来。