实用至上：智能体/Agent 是什么

长沙7喜 2024-05-14 发布于湖南

展开全文

我算比较资深的 Agent 开发者：ChatGPT中，用量最大的 Plugin 和用量最大的华人捏的 Bot，可能都是我做的。

之前写过一篇实操教程：《保姆级教程：Coze 打工你躺平》，今天想从 Agent 的发展脉络，来更深入谈谈。

Agent 的起源

不做词义追源，仅从大众角度，这个事儿是去年初开始的，也就是 2023 年 2-3 月。标志性事件包括：

AutoGPT 等开源项目的发布，这是第一批基于自然语言的 AI 自动化实践：你告诉它一个任务，它就会通过自然语言的自我对话，将这个任务进行拆分、规划并实现。
斯坦福小镇一类的项目实践：给予不同的 Bot 以不同的人格，搭配记忆窗口，让它们之间相互对话。
发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》，以及 OpenAI 在 3 月底发布的插件计划：这意味着，大模型从原来的“思想家”，通过对外部工具的使用，变成了实干家。

《AI 学会使用工具了》

2023年2月14日，报道自赛博禅心

时至今日，对于 Agent 是什么，可能还没有一个标准的定义。

一个常见的观点是，Agent 是一种让 AI 以类似人的工作和思考方式，来完成一系列的任务。一个 Agent 可以是一个 Bot，也可以是多个 Bot 的协同。就像是职场里，简单的工作独立完成，复杂的工作协作完成一样。

对于每个 Bot 来说，可能会包括：

再具象一点，这里我从 GPTs 里截了个图：

对于 GPTs，通常被认为是由 OpenAI 设计的简化版的 Agent。默认情况下，只能进行单 Bot 交互：

以 OpenAI 为例，我们看看 Agent 是如何一步步演进的。

去年 3 月底，OpenAI 宣布了插件计划，并在 5 月上线了插件商店，这也标志了 OpenAI 揭开 Agent 战局的第一步。

在当时 OpenAI 给开发者发送的指引中，给了这样的 Todo：

如果你做过 OpenAI API 的开发，可能会觉得这个文档有些熟悉，这不就是 Fuction Call 吗？

没错，在 2023 年 6 月 13 日，OpenAI 发布了 Function Call 模式，让大模型可以来调用外部工具，用的就是非常类似的方案。

再往后，OpenAI 的相关工作人员做了一系列的 Research，关于 Agent 的最佳实践。同时的，也发布了 Custom Instruction 指令的相关功能。

之后，ChatGPT 推出了 All Tools 功能。也就是回答用户问题时，不再需要用户自主的来选择工具，这可以视作是“自动版的Plugin”，覆盖了三款官方工具：Browsing, Advanced Data Analysis 和 DALL·E。

时间推移，在2023 年 11 月 6 日的时候，在 OpenAI 开发者大会上，Sam Altman 宣布了 GPTs，这通常被认为是 OpenAI 推出了其第一个正式版的 AI Agent。在最初的版本中，包括以下功能

允许用户创建多个 Bot，自定义它们的身份和回答风格。并且这些 Bot 可以分享
Bot 可以自有使用三款官方工具：Browsing, Advanced Data Analysis 和 DALL·E
Bot 也可以通过 Action 的方式（类似 API 的东西），去调用任何的外部能力
Bot 可以有自己的数据空间，允许用户对这些数据进行 QA。比如在《我刚弄个贼实用的GPTs》中，我上传了 OpenAI 的开发文档，帮助开发者快速生成 OpenAI 的调用代码

同时，在11月06日的时候，OpenAI 也更新了几个影响深远的接口：