ChatGPT其实很简单，但是需要的条件都是中国的弱项

自从ChatGPT横空出世以来，以其为代表的大模型技术立即引起了整个社会的强烈关注。虽然在业界其实一直是比较火的一个研究方面，但是ChatGPT这种让普通人能够直接参与并且感知的技术，使其让大部分人能够真实体验到其中的乐趣，最主要的，它还提供了很多搞笑段子，让普通人都能够理解，并且乐此不疲。当然最主要的，对于一些八股文来讲，ChatGPT能够提出相当靠谱的解决方案，大大解放了生产力，使得很多人能够很容易的制作出相应的文章或图片，甚至还有代码，因此广受人们的欢迎。

因此，随后大批公司都推出了自己的国产大模型，以此来宣称自己是站在科学技术的前沿领域的。比如说科大讯飞的“星火”、腾讯的“混元”、百度的“文心一言”、华为的“盘古”等等。目前已经有几百家了。

然而，很多人不清楚的是，大模型技术从工程上看，其实是非常简单的。而它难的地方，却基本上都是我国的软肋所在，因此，中文大模型的发展相对来说才比较困难一些。

为什么说大模型技术很简单呢？其实大模型技术说到底，基本上都在做一件事，就是把一个东西编码，然后再告诉别人这个编码最可能是什么。类似的，你问一句话，他给你最可能的回答。

举个最简单的例子，比如说有两个人，一个姚明，一个郭敬明。这两个人的特征有很多，我们简单列出几项：

1、名字里带“明”字

2、身高

3、体重

4、头发颜色

5、双眼距离

那么假设我们要做的事情就是给一张图片，让机器认出这人是姚明，还是郭敬明。首先我们先给了一千份姚明的信息，一千份郭敬明的信息。最后机器经过了一番学习之后，发现所有姚明的信息里，对这五个特征是这样的，1、是。2、虽然有的说2.3米，有的说2.28米，有的说2.29米，但是对1一千份信息的统计，这里记录身高是2.29米。3、体重，平均下来是140公斤。4、头发颜色，发现是黑的。5、双眼距离，经过统计，发现是8厘米。

同样的，通过对郭敬明一千份的信息统计，最后也会得出每个特征的相应值。

这个就是训练模型的过程。

训练好之后，这时候给了模型一张照片，一看两米多，头发黑的，名字里带个明字。但是双眼距离7厘米。模型一看，反正我一共认识俩人，要么姚明，要么郭敬明，这哥们80%以上是姚明，是郭敬明的机率10%以下。所以模型给出结论，这就是姚明。你把郑海霞的照片给模型，模型一看，这人是姚明的机率20%，是郭敬明的机率5%。最终结论，还是姚明。当然这和模型设置有关，可以设置成，不管概率多少，你反馈出概率最高的那个就行。有些则设置为，如果概率低于80%，你就说你不认识好了。那么这种情况下，你给一张郑海霞的照片，第一个模型会告诉你，这是姚明。第二个会告诉你，我不认识这人。

所以大模型，本质上其实就是把模型特征量，和数据量，都扩大到足够大的地步。比如说，把全球有史以来，所有人的信息都放进去学习，特征扩大到十亿个，那么每个人基本上都有一个唯一的特征序列，毕竟完全一样的人世界上没有对吧。比如说，姚明的特征可能就是，身高2.29米，体重140公斤，出生于1980年，头发颜色黑的，眼睛颜色黑的，皮肤黄的，鼻梁高的，在美国待过。。。。。。这样，模型再接收到一张照片后，发现这照片有5000万特征都符合姚明的，其余的最高就一千万特征符合。那考虑模型认识全世界有史以来所有人，模型就会告诉你，这照片是姚明。

当然你可以哈哈一笑，说这照片我自己画的，那模型就会告诉你，无论你怎么弄的这照片，在我的认知里，这照片最像姚明。

当然模型本身有很多算法优化和很巧妙的设计，但是总的来说就这么一回事。用通俗一点的话说，就是信息差。原始部落的人再聪明，他没见过飞机，第一次见也只能管它就铁鸟。

所以一个最优秀的大模型，本质上就是把从古自今所有的知识都学习过了，并且对所有知识的特征都有了自己理解的模型。

比如说当你写“床前明月光”的时候，因为大部分人后面都写“疑是地上霜”，所以大模型会写后面是“疑上地上霜”，如果他学习到的知识大部分人写的都是“王伦脱光光”，那么他就会告诉你，下一句是“王伦脱光光”。

这件事情搞清楚了之后，我们就可以很容易的认识到了，发展大模型最主要的技术到底是什么。

很显然，一是足够的算力，十亿个特征，一个人数一辈子都数不完，更何况自古以来所有知识每个知识都有十亿个特征了。不说所有知识，就把全国十亿人每个人十亿个特征，那就是个十亿乘十亿的矩阵了。没有足够的算力，根本算不过来。

其次是足够优秀的训练集，如果数据集里所有的数据都表示“床前明月光”下一句是“王伦脱光光”，那么训练出来的结果就是“王伦脱光光”。像微软、推特的在线机器人在网上学习了没多久，就变成了满嘴脏话的种族主义者。这就是训练的结果。

所以算力和训练集，才是大模型最重要的元素。

然而很不幸，这两者都是我国的弱项

现在主要的算力来自于发端于游戏产业的GPU，而我国因为政策的原因，游戏产业在很长一段时间内，甚至在未来，也属于受限发展的产业（白酒、游戏与下马的运十：如果茅台换成英伟达会怎样？）。

另一方面，优秀的中文数据集少之又少。根据维基百科的数据，截至2020年3月25日，W3Techs 预测前1百万互联网网站使用的语言文字百分比，中文排在第十位，占互联网资料总数的1.3%，和越南语相当。

这意味着只用中文的话，互联网世界大部分的信息其实是根本接触不到的。这也是为什么，很多所谓国产的大模型，在与国旗之类内容相关联的结果会弄出星条旗来。因为在那个模型接触的资料里面，大部分涉及到国旗的场景都是星条旗，认算也就不奇怪了。这也是为什么很多人会发现，纯英文语境下的表述，大模型表现的一般都很好，而涉及到只有中文才能理解的语境，很多模型表现的非常差了。比如说著名的文心一言的松鼠鳜鱼。很明显，这模型的训练集里从来没出现过“松鼠鳜鱼”这个东西。

这种数据集的匮乏，本质上是什么呢？我们常说一加一大于二，本质上就是，孤立的两个人的知识被集中起来之后，会碰撞出新的火花，而在两个人碰撞之前，这个知识是完全孤立的。比如说网上的一些奇遇段子，两个陌生人感觉彼此很亲近，后来发现双方是失散多年的兄妹。这两个知识就孤立的存在于世界上，而如果我们建立了全国范围内的基因库的话，那么基因库立即就会知道这两个人是兄妹。

大模型也是如此，一个人是无法看完全互联网世界里的所有资料的，但是大模型可以，因此，大量孤立的知识就会碰撞出各种火花，引发科技的革命。

就像很多人都看过拍摄带电粒子轨迹的威尔逊云室被发明的故事。有一天，提出电子理论汤姆孙说要是有一种仪器可以显示电子的路径就好了，毕竟老眼昏花，天天盯着荧光屏有点费力，威尔逊说那我就造一个吧。因为这哥们以前搞气象的。威尔逊云室显示粒子路线的原理和平时下雨的原理是一样的，天上云里的饱合水蒸汽要是碰上灰尘或者带电荷的空气分子就会凝结成小水滴，水滴足够大了就下起雨来。威尔逊云室就是把饱合水蒸气放到一个干净的小盒子里，因为没有灰尘或者带电粒子，所以形成不了水滴，这时候，如果打进一束带电粒子，粒子经过的地方水汽立即就会凝结成水滴，形成一条白线，这样，人们就能看到粒子的轨迹了。再在这个装置两边放上磁极，那就能根据粒子的偏转方向知道他是带正电还是负电还是中性的了。

就这样，汤姆孙和威尔逊俩人的思想一碰撞，威尔逊云室就产生了，他也因此得了诺贝尔奖。

真正的大模型，会制造出无数这样的知识碰撞。随之也会产生无数的优秀成果。但是中文语料的匮乏，将使国人参与这种知识碰撞的机会大为降低。这不得不说是一件令人担忧的事情。而中文优秀语料的缺失，主要原因在两方面，一是很多东西发不出来。二是中国优秀的人才大部分没那么多闲心，写开源的软件、资料这事儿，一般都交给外国人了，我们随便抄一抄，就能遥遥领先了。

喜欢本文的话，欢迎关注活在信息时代哦：）

【原】ChatGPT其实很简单，但是需要的条件都是中国的弱项