为啥AI要用GPU？ChatGPT工作原理最强科普，看不懂算我输，全是大白话

mrjiangkai 2024-03-27 发布于上海

展开全文

私信：指南，领取《ChatGPT实用指南》精编版

ChatGPT写论文一对一指导：借助ChatGPT，轻松打造高质量优秀论文。详询谷雨（guyu299）

文 / 高扬（微信公众号：量子论）

这一年多，有不少人问我ChatGPT的运行原理是什么？

我今天尽力用大白话做个解释。

首先请答题：

我爱X

X填个字，你会填什么？

我想大概率会填“你”。

其实X还可以换成“她”、“水”、“车”、“米”、“手”、“房”等等等等。

像人一样，ChatGPT会给这些字加上匹配概率，大约如下图所示。

即，有80.00%的匹配概率选择“你”；10.12%的匹配概率选择“她”；1.08%的匹配概率选择“房”。

正常情况下，ChatGPT会按匹配概率优先选择“你”。

但有的时候，我们希望答案是丰富多彩的。

于是，ChatGPT提供了一个调节参数，叫温度，范围从0到1。

在温度为0时，说明匹配概率要选尽量大的，在以上例子中，ChatGPT很可能选择“你”；

在温度为0.8时，说明匹配概率要选择较小的，在以上例子中，ChatGPT有可能选择其中任何一个字。

在温度为1时，说明匹配概率要选尽量小的，在以上例子中，ChatGPT很可能选择“房”。

我们想要天马行空的答案，只要将温度参数设为0到1之间的值，就可以得到这样的效果。数值越接近1，得到的内容越天马行空。

比如，温度设为0.8，那么ChatGPT生成的这段句子可能是：

我爱水，水是万物之源，我爱它的纯洁美丽，我爱它的……

对于ChatGPT，目前只有一个对话框，如何修改温度参数呢？

很简单，在提示词里就可以体现温度参数。

提示词里面如有这样的信息：你是一位博士后，计划写一篇学术论文。

这时ChatGPT会理解为温度是0，即选择匹配概率尽量高的词语生成句子，相当于中规中矩地找相应词语组成句子，这样可以生成较为严谨的内容。

提示词里面有这样的信息：你是一位艺术家，计划写一篇畅想，请用天马行空的语言。

这时ChatGPT会理解为温度是1，即选择匹配概率尽量低的词语组成句子，相当于随机匹配词语组成句子，这样可以生成更为意想不到的内容。

理解上面的例子后，你有没有想过，这些词语的匹配概率又是怎么得来的？

答案是训练出来的。

ChatGPT的打磨过程主要分两个阶段。

第一阶段是预训练。

ChatGPT的训练内容来自45 TB的数据集，这些数据来自书籍、论文、论坛、网络爬虫抓取的网页等。

预训练数据的选择质量和ChatGPT最终的性能密切相关，因此我们要把这45 TB的数据集做个清洗。

网上的垃圾内容太多了，尤其是网页数据，远远没有书籍、论文、杂志的质量高，需要去掉无用的导航、推荐、广告等信息，主要保留有价值的正文。

45 TB的原始语料经过清洗之后，数据量减少到570 GB左右（估算值）。

经过清洗的数据都是值得学习的精华，相当于我们上学时的教材，而不是地摊文学。

然后，我们可以开始训练了。

训练的过程就是通过GPU（图形处理器，或称为图形处理单元，也就是显卡）把要训练的数据“喂”给模型，经过一些时间，就可以训练出神经网络模型了。

为什么不用CPU（中央处理器），而是用GPU呢？

这是因为CPU本是用来执行各种各样的综合任务的，而GPU更适合进行大量的矩阵计算和向量计算。

一块CPU可能只有几十个核心，而一块GPU可能有一万个核心。

如果说CPU是一个数学系毕业的高材生，能计算各种艰深复杂的问题，GPU就像是汇集了一万个只会1+1=2的小学生，能以最快的速度处理海量简单重复的问题，这正是训练人工智能最需要的能力，通过对庞大数据的学习、分析、推理，让机器像人类那样解决问题。学习的数据越多，机器越聪明。

训练到什么时候结束呢？

这与我们学习类似，当学习的效果开始下降时，就可以随时停止了。

例如，一个人学《论语》，学50遍肯定比学1遍得到的知识内容多很多倍，但是学100遍的提升效果相对于学50遍的提升效果而言，就没有那么明显了。

经过预训练的模型叫作“基础模型”，它是所有后续微调工作的基础。基础模型已经像是一个具有无限潜力的超人，拥有丰富的知识。只是目前这个超人空有蛮力且善恶不分。

接下来需要进行第二个阶段，即微调。

我们需要精细调整，这有些类似于给一部要出厂的手机增加一些详细设置。

对ChatGPT的微调，实际上就是增加更多的对话数据集、程序代码等，以便使其更贴近聊天场景并且在回答时遵循道德规范和安全原则。

例如，基础模型不仅知道怎样制作茶叶蛋，还知道怎样制造原子弹；它不仅可以安慰人，也可以诋毁人。这时，我们要通过微调，禁止输出制造原子弹的内容，禁止输出诋毁人的内容。

此外，微调过程还可以帮助模型更好地理解对话场景，提供更有针对性的回答，并适应用户的需求，例如控制回答的长度等。

ChatGPT的基本原理就这些了。如果还有疑惑的话，欢迎加我微信 gaoyang677，我们共同探讨。

另外，如果想深入了解ChatGPT的运行机制，可以阅读这本科普书《这就是ChatGPT》，166页，内容不多。

ChatGPT产品的公司老大为此书特别写了书评：这是我见过的对ChatGPT原理最佳的解释。

书籍已经传到了百度网盘，大家关注“量子论”公众号，回复“大模型”三个字，就可以获得下载链接。

博士论文季，巧用ChatGPT高效完成二十万字的博士学术论文

GPT-4时代终结者 - Claude 3账号注册保姆级教程，一定要注意这5点，否则容易封！

OpenAI奥特曼为此点赞！万字科普深度雄文，详述ChatGPT为啥这样强

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： mrjiangkai > 《我的图书馆》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

mrjiangkai

关注对话

TA的最新馆藏

算力租赁加速爆发！AI算力关键赛道，核心龙头厂商梳理
百模大战引爆「千卡集群竞赛」，“中国英伟达”交卷了
人形机器人：一个万亿乃至数十万亿级别的新赛道
谁在买入黄金ETF？
图灵奖得主杨立昆：大语言模型是通往AGI的一条歧路
高性能GPU服务器AI网络架构（上篇）

喜欢该文的人也喜欢更多

热门阅读换一换