分享

新晋顶流ChatGPT,是如何实现对答如流的?

 大白传媒 2023-10-16 发布于广东

最近看到 AI EDU 上体验的用户越来越多,我们也在加速开发新功能了💪

当然,埋头搞开发之余我们也关注到大家使用过程中产生的疑问

举些例子吧,比如说👇

  • 回答不切合实际,它真的是人工智能吗?

  • 我让他写一篇3000字的论文,怎么500字就把我打发了?

大家急切想要把 ChatGPT 用起来的心情我特别理解,但是在使用之前需要补充一些知识盲区。

Chat GPT 是回应性的,并不会进行计划或者推理(They are “reactive” and don't plan nor reason);所以它们其实会去编造一些东西。

我们不能贸然把 ChatGPT 当作有智慧的机器人,它的本质其实是语言模型,而不是逻辑或者计算模型。

它的最强项还是语言的理解、组织和输出,可以理解成是翻译官(它是个“文科生or文字工作者”)。

当然,语言也包括 编程语言,这时候,它还是个 杰出 的工程师😎

为什么呢?这与它的功能定位有着很深的联系。

Chat GPT (Chat Generative Pre-trained Transformer) 翻译成中文是 【会聊天的生成式预训练转化器】

它所依赖的,是一种基于互联网可用数据训练的文本生成深度学习模型,在技术上,很多人将这种 AI 训练的底层逻辑比喻为“大力出奇迹”。

而从数据量来看更是惊人,2019年,OpenAI 推出参数为 15亿 的 GPT-2,2020年推出 GPT-3,将参数提升到了 1750亿,成为当时全球最大的预训练模型,引发业内轰动。

在2021年,GPT-3 做了两个关键变型,分为了 WebGPT 和 InstructGPT

WebGPT

用于搭建基于文字的页面浏览环境,教 GPT-3 上网查询,在生成结果的同时生成引用来源,相对 GPT-3 大幅提升生成内容信息量和事实性。

InstructGPT

基于用户反馈的强化学习 RLHF,将语言模型的输出与用户的意图非常好地 align(对齐/相关)起来,拥有了“智能”的表象。

大家都知道,ChatGPT  没有释出任何论文,只有官方文档放出了一张【训练步骤】的图片。

ChatGPT 训练步骤

图片来源: OpenAI blog

但是我们可以看到,InstructGPT 的训练流程图 与 ChatGPT 几乎一模一样

InstructGPT 训练步骤

图片来源: OpenAI blog

唯一不同之处在于,ChatGPT 是基于 GPT3.5 的模型训练的。

而 InstructGPT 还是有很多论文可以查阅的,由此我们可以搞清楚它的训练过程。

台大电机工程学系李宏毅副教授分享 4 个 ChatGPT 可能的训练阶段。

01

文字接龙

在最初的训练过程中,它会像婴儿一样,通过捕捉人类的语言来学习说话。

你给它一个不完整的句子,比如“你好”。GPT 会想办法猜出,接下来应该接哪一个字才是正确的。

例如,应该接“美”,组成“你好美”;还是接“啊”,组成“你好啊”……

当它学习时,会在网络上收集大量的文字,它将随便读到的某一段文字拿下来,都足够让它学习说话。

但语言是复杂而多样的,不完整的句子、词汇后可以接的内容有很多种可能性,那么它是如何抽取词汇来给你答案的呢?

实际上在对话时,它真正输出的是一个几率分布。

即,它在网络上获取到的频率比较高的词汇更有可能被抽取出来。

就这样,GTP 拥有了跟人类对话的能力。

02

提供范例

它像新生的孩子刚刚学会说话,能够自由地表达,没有拘束。

也就是说,ChatGPT 给出的答案都是从网上读到的,那么只要跟问题相关的句子,它都会作为答案给出来。

例如你问他“疫情是否会反复?”,他可能会说“谁来告诉我呀?”

显然这并不是一个答案,而是在问题的基础上衍生出的新问句。

这时,它就需要人类来提供标准的“答案”,作为范例给他学习正确的回答方式。

但其实 ChatGPT 根本不需要使用到大量人工标注的问题跟答案,目前用到的也只有几万则而已。

因为这些答案其实是 GPT 本来就有能力产生的,他只是无法辨别哪些答案是人类希望它产生的。

今天人类要做的事情,只是教会他,人类希望他给出什么答案。

03

人类把关

目前 Open AI 在开放 API 给大众使用,这会让非常多的人去问问题。

对于一个问题,GPT 会随机生成好几个答案,最终由人类来标注哪些是好的答案,哪些是差的答案。

04

老师模型

有了这些数据,就能训练出一个“老师模型”来模仿人类的评分标准来给 GPT 提供的答案打分 (reward)。

最后,就可以通过增强式学习 (reinforcement learning) 来调整 GPT 的参数,最终目标是在老师模型这边得到最高的 reward 。

相较于其他 AI 产品,OpenAI 花了很大力气去人为调整它。

如调整其回答的“温度”,不让答案看起来过于像一个机器人,也不过分怪诞和天马行空,使得ChatGPT回答问题的效果比之前市面上见到的聊天机器人都要好。

通过这种比较先进的算法架构,会整合尽可能多的的数据,汇集大量算力,使用集约化的训练模式,从而供大量用户使用。

如果今天我们要高程度地使用AI,就无需再做模型了,而是用已有的大模型,以一种服务方式提供给用户。

这很可能会改变信息产业的格局,把AI应用带入基于互联网、云计算的大规模智能云阶段。

ChatGPT 让普通人第一次可以使用自然语言,通过这种跨越所有交互与数据操作之上的通用界面,对信息世界进行“编程”,并且获得自己所需要的能力。

或许你认为它不过是使用了大规模语言模型,是“弯道超车”或者“也不过如此”,但是它仍旧非常难以超越。

简单来说,即使其他团队的算法、数据、算力都准备的与 OpenAI 相差无几,但就是没想到以一种精巧的方式把这些元素组装起来。

没有 OpenAI,全行业不知道还需要去趟多少坑。

而至于“大规模语言模型是AGI的必经之路吗?” 我觉得即使是以此为目标的 OpenAI 也不敢打包票。

只能说,我们通过生成式 AI 认识到了一些新的东西,提高了对“智能”的理解。

今天我们站在了人工智能的入口,如霍金所说的,这是美丽新世界的入口。

人工智能的大门,已经打开。大门里面,是无数的机会。

你打算如何行动?继续观望 还是 参与其中?

希望每一个人都可以,拥抱变化,成为这场变化中,那个掌握命运的人。

哦对啦,想要跟我深入学习了解人工智能 AI 的,可以加小南👇

并且,她还准备了 200个独立账号作为福利送给想要学习的朋友手慢无

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多