播客笔记｜ChatGPT与生成式AI的技术演进与商业未来 | 秋山羊圈

konofufuda 2023-02-09 发布于广东

展开全文

播客原址：https://www./episode/63e19fb40d7e8eaa72117c47

Key takeaways:

1. GPT2 and GPT3 differ in their ability to do fine tuning tasks, with GPT3 having the ability to do one-shot and few-shot learning.

2. Data is important for fine tuning tasks, as it can lead to a 30-50% increase in accuracy.

3. Open source models have the benefit of allowing a field to grow quickly, but lack a direct commercialization model.

Counter arguments:

1. It is unlikely that foundation models will be able to form a platform similar to Android or iOS, as they lack the value of development speed and user revenue.

2. A single large model cannot solve all problems, and a full system is needed from product design to user interaction and artificial service.

播客记录

问题1:

GPT3和GPT2最大的区别是，后边的fine turning task，GPT2是Zero shot，准确率差；GPT3里task是one shot，还有future learning，所以准确率上去了。从这个角度来说，数据在 fine turning task 里面还是非常重要的，GPT3 decoder generalization的能力还是有限的？ decode 以后，它怎么去处理那些特殊的这些各种不同的task？

fine turning 跟 few shot 是不矛盾的，decoder pre train 之后，都可以做 fine turning，或者是做 few shot 或 zero shot。fine turning 的好处就是如果你有一定 size 的 training data set，你就可以 fine tune language model，让 language model adapt 到你自己的 specific task 上面，它就可以在 task 上面 performance 特别好。 fine turning 跟 zero shot 区别是假设你没有一个一定 size 的 training set，比如你现在有一个新的task，你完全没有任何data，你希望用 language model 去解决task，你唯一可以做的就只有 zero shot 跟 few shot，你没有办法用 fine turning 的方法。

GPT2 跟 GPT3 最大的区别就是当 GPT3 的 model capacity 增长到 175 billion 的 parameter 的时候，它有了 in context learning 或者是 few shot 的ability。

in context learning中很重要的一点是，fine tune 的 task 里面除了 zero shot 以外，有了 one shot 和 few shot。大部分的 zero shot learning 的准 task 准确率在 30% 左右，但是 one shot 的平均值居然达到了 40% 多，这一下子就是 30%- 50% 的提升，一个数据点就达到了百分之 30- 50 的提升，说明数据是很重要的。以后每个领域要去 train 都只需要非常少的数据，要去做一个非常具体场景的模型的成本其实是越来越低。从生成模型角度上来说，一开始在 pre train 阶段的数据量以及它的丰富程度是非常重要的,第一阶段量会比质更重要。在这样生成的一个基础模型上，再对它进行 fine tune 的时候，可以切换成质量评分高的数据。基于一个我们已经训练好的通用的图像生成模型，想要扭转到某一个领域里面，其实需要的时间是非常短的，没有植入新的概念的话几十分钟就可以，如果植入新的概念，可能需要几个小时。

生成式图片，把语言文本 encode 成计算机能够理解的这些语言的 embeddings 以后，把它 feed 到unit 里面。 unit 负责的是基于文本完成一系列的降噪过程，根据文本生成相对噪音比较低的图片，再一级一级把它生成出一个完整的图片。

开源模式的pros and cons：

开源好处是可以让一个领域快速成长，坏处是没有直接的商业化模式，比如卖一个封闭的API，也没有明确的 competitive edge。

模型开源了，也不代表所有的围绕模型的所有的内容都会开源，还是会有一些 know how 在里面。基于训练模型的能力本身，可以给企业，给一些创意公司，或者给一些互联网服务商，去做定制化的模型。基于私有数据去做的模型肯定是没有办法开源的。

问题2:

当前的 foundation model 还仅仅提供 API 的服务，对于客户来说，切换成本还是比较低。我们看到其实很多的创始人也拿现在的商业生态来去类比十几年前的安卓生态或者闭源的 iOS 生态，大家怎么去看？未来不管是开源还是闭源的 foundation model 提供商，有没有机会去形成像安卓还是 iOS 的生态平台，通过提供更多的更重的开发接口，还有相关的开发者的产品，真正的提高切换成本，真正的让更多的高质量的用户形成商业上的粘性。以及这样的平台生态在工程上，还有产品上，应该如何实现？

个人是不太认为能做成基础的操作系统， hidden technical debt 有 95% 跟模型是没有关系的，和 i o s 的类比也不是特别的恰当。ios强是因为develop speed 和 user revenue，用大白话说就是，你花多少钱，你能收到多少钱。一个 game studio，一套代码可以几乎把所有的最新的七八个 i o s 设备全部都覆盖到，完全不需要重复开发，它在上面的收入却远远高于安卓，而安卓是每个设备都要重新开发。如果 open AI要去 host 一个所谓的操作系统，它给开发者提供了什么样的价值？给他的 revenue 在哪里？给他的 develop speed 在哪里？我感觉 open ai 没有任何的思考，所以我觉得没有办法去判断他是否能做出类似于操作系统这样的Ecosystem。

我们没有办法拿一个大模型来解决所有的问题，就算以后 language model 大一统， gpt 4， gpt5能够走到一个真的非常非常贴近于agi的这种文本交互的体验。但它离生产环境还是远的。我们需要的是一个能够囊括从产品设计到跟用户的交互，到后面需要跟上的人工的服务的一整套体系，我们很难说以一个模型来支撑这一件事，虽然模型在里边是一个非常重要的部分。

当然，如果我们能做出一个通用的像GPT 这样通用的 language model，它可以把NLP还有其他一堆任务都给统一了，那这一个模型就 serve 了。这个时候，就不需要去让开发者来配置了，这样开发速度得到提升，成本也可能得到降低，这个时候它可能就会成为 pass 服务的一部分。open.ai自己做不成,但是它有Microsoft。最近其实 Microsoft 跟 open ai 的一个 deal 也引起了大家的注意， Microsoft 在几年前就已经在 open ai 上投资了10 亿美金。

问题3:

现在几乎所有的做药物研发的传统公司，其实都已经多多少少应用上了AI。所以对AI 的创业公司接下来要如何做出护城河，还是一个挺值得关注的事情。正好刚才其实我们讲了很多 business model 事情，下一步到底是什么？我个人的感觉是下一步其实有两个方面，一个是更偏science，更偏研究，另外一方面就是更偏engineering。从研究层面来说，我们现在的这一些尝试还有哪一些limitations？它基于现在 fundamental 的这些可能，通过一些优化和微调，可以达到怎么样的一个天花板？

现在 large language 虽然在很多 NLP 的 task 上面的performance 非常好，但是你如果给它一些更加 challenge 的task，它的 performance 还是不够令人满意的，比如像 reasoning 这种比较复杂的task。

像 ChatGPT，它的 factuality 其实并不是特别好。比如你问他一些问题，他会给你一个非常看上去非常令人信服的答案，但是有时候这个答案可能是胡编乱造的，背后并没有证据支持。你作为一个人类，你看这个答案就知道里面有一些逻辑可能是错的，或者里面有一些事实是胡编乱造的。还有一个是 safety 的方面，如何保证这些 generative 出来的东西是安全的？会不会对任何一个种族产生BIAS？因为现在这些 Lark language model 生成的东西完全是根据他们的 training 的 distribution 来的。在现在这个世界上， training distribution 本身是带有一定的 BIAS 的，所以相应而来的这些 model 也自然会在生成过程中带着这些BIAS。

GPT4在做一些补救，它的补救方法是新出的对话应用，你可以不停地和 chat GBT 聊天。当你不停地和他聊天的时候，他可以拿到对话信息，提高多轮次对话的性能。

问题4:

现在 chat GBT 对于中文的文本的生成还是有非常多的问题，这样的问题能不能通过训练更多的相关数据，得到比较好的解决？第二点，我也听到很多通过训练 GitHub 上的代码数据，明显地提升了对于自然语言的推理能力。我想这也是模型迁移学习的一部分。未来当大模型其实学到更多的多模态的数据之后，能不能够对其他的 modality 的能力项也有明显的提升？

第一个问题，根据现在大模型的所有 pre training distribution 来看，其他语言基本上是占比较小的比例的，如果想让 Chatgpt在中文上面能力更好，或者任何其他大模型的中文或者其他语言能力更好，可以让pre training 时间可以更长一点，让他在 compass 上面能 adapt 更好一点。

关于模态的问题， code 代码数据的训练肯定是能帮助提升reason的。未来如果加其他新的模态的数据，这个 model 是可以提升其他模态能力的。比如其实已经 deep mind 已经有篇 paper 叫Flamingo， Flamingo 里面其实有多模态，它既有 vision data，也有 text data，可以把 vision 跟 text data interleave 起来。

如何能引进多模态？其实单模态大家其实现在这条路已经走得差不多到 limit 了，其实很多人其实都觉得下一个 promising 的方向是把多模态结合在一起，让这些多模态互相之间能够interact，能够maximize。它最后学到的东西就是你这个人对于这个世界的整体把握的能力。

要真正去做好多模态，主要核心的难点在哪？单模态其实只要一个 encoder 就够了，它所有的 input 都是一致的，用同一个 tokenization 同一个encoder，就可以 encode 出来一个 unified representation。但是如果多模态非常tricky，因为text会经过一个 text encoder 变成一个 representation video， image 会经过一个 image encoder 变成一个 image 的representation，这些东西怎么能 align 在一起，怎么互相让他们就是 interact interaction，能够 maximize，这些都是非常难的。之前 flamingo paper用了一个比较好的方法，就是把 text 跟 image 互相插在一起，比如一个 image 下面跟着一个text，一个 text 后面再跟着一个image， image 后面再跟着一个text。它是先把 image 通过一个 image encoder encode 到一个reputation，再用一个 language model 去把 tax encode 到另外一个 tax 的space，通过这种 interleave 的方式去 train model，最后让 model 能够生成一个 reasonable 的 text 。

个人接下来在 AI 领域还会比较关注的部分：

1. research 方面，对 Lark ranks model 接下来还能 unlock 一些什么 capability 非常的感兴趣。我觉得将来多模态也是一个非常 promising 的方向。如何能让 machine learning model 能达到人的capability，能像人学习这个世界一样，利用各种模态互相交互达到最大化，以尽量少的 training 时间得到最大能力的提升，也是一个我非常感兴趣的方向。

希望看到哪一天能够提出新的方法来做有接近人类智能原理的AI 技术。我个人觉得 data century AI 现在是很重要的，但是我认为它一定是 AI 发展的过渡时期。真正的智能是不应该过度的依赖 data ，我可能会想看到，基于现在的语言模型，现在的多模态的图像生成模型，到底能够把我们的生产应用推到什么程度。现在我们的语言模型和生成模型的使用都还偏向于单点式的应用，对生产环节里面的一个小问题，会有一个专门的解决方案，我很期待说能有一些创业者也好，创业者或者是大厂能把这所有的能力拼起来，把不同的模型，不同模型的应用拼起来， cover 一整个工作流，做出一个完整的产品，想看到从模型角度思考出发，同时带上了用户中心的思考的原生的 AI 的工作解决方案的出现。

在在看一个 AI 的公司的时候，你最关注哪一些方面？

人才和经验还是非常关键的。和上一代的 AI 相比，真正的有经验的去训练过千亿参数模型的人才，在最近几年还是非常稀缺的，因为需要百万美元以上的成本的投入，所以他们没办法在大学、在学术机构获得这样的经验。拥有这样实战经验兼具技术经验和管理能力的人才leader很重要。

所有的人都在讨论未来的应用生态该怎么建，但是其实没有人有一个明确的答案。更多的还是去考验创业者整个的一个产品设计能力，市场定位，包括对用户的感知。这其实现在也很稀缺，因为很多的 AI 创业者很多都是来自模型的 research 部门，或者是 paper 论文的发表者，他们有没有很好的产品感知，其实也是我们比较看重的。

我觉得其实现在应该是不能过早的投过多的钱，因为技术还在非常快速地变化。但我自己个人还是非常相信这次的技术的变化，会诞生非常多的全新的市场。其实创业者会比大厂能更早地去定义新的需求，新的客户群体，在技术的快速迭代中，优先去把新一代的产品做起来。所以我自己觉得可能比较合适的方式是大胆假设，小心验证。其实投资也是一个概率学的游戏，一边通过少量的投资来去验证自己对大方向的假设，一边去观察技术的变化。

展望一下，AI有哪一些让你非常 exciting 的未来？

其实更加让我兴奋的还是跟人相关的，可能之前的所有的 AI 的应用，还是解决一个具体场景的具体问题，但是我非常期待在今年明年有非常不错的产品经理，能够去定义某一个大的应用领域，让 AI 跟人一样去交互，解决一个人类的大面的需求，甚至是人类跟 AI 形成非常强的绑定或者使用习惯。

未来对人的能力、技术能力的需求都会改变，因为现在Chatgpt已经可以帮我们做那么多的事情，可能接下来就变成谁更有更好的 prompt engineering 的能力，因为你问的问题不一样，你得出来效果是不一样的。

Explain like i'm five 生成的名词解释：

Fine tuning

Fine tuning is the process of making small, precise changes to a system or process to optimize it. It can also mean making more substantial changes to a system or process over a period of time.

An analogy that can be used to explain fine tuning is cooking a meal. You can start by adding the ingredients and simmering it for a few minutes, but to make the dish truly great, you must fine tune it by adding extra spices, adjusting the temperature and stirring it frequently.

2. Few shot

Few shot is a type of learning where a machine learning model is trained on a small set of data. It is a type of learning where a model can learn from a few examples, as opposed to needing a lot of data to train. For example, a model might learn to recognize a dog breed from just a few images, instead of needing hundreds of images. It is a more efficient way of training models.

An analogy that might help understand few shot is like learning a new language. You can learn the basics of a language with just a few words or phrases, instead of needing to learn thousands of words.

A fun fact is that few shot learning can even work with just one example. In fact, some models have even been trained on single images with high success rates.