深度解读大模型最火的智能体(Agent)

kbmgmg 2024-06-26 发布于福建

展开全文

前言：Copilot 和 Agent 有没有区别？

上周写了一篇文章，讲大模型两种模式，一种是 copilot，一种是 agent。

（还特别火，6000+的阅读，激烈的讨论，没有看过的同学可以看下。）

文章出来之后引起了讨论，有同学留言觉得 copilot 和 Agent 没啥区别，核心原因是认为，Copilot是传统软件使用AI 增强，这时被包裹成为copilot，另种形式 Agent 是AI系统（目前常见各种对话）包裹传统系统API，这时称为Agent。这两者没有明显区别，同样的实现逻辑。

其实这个是有误区的。

核心概念区别

Agent 和 Copilot 最核心区别在于是否能自主完成任务，并不是是否调用其他能力。类似自动驾驶里面的 L2，L3的区别。agent 也可以包在传统软件里面，是否包，还是独立的，不是这个核心区别。

AI Agent 是一种智能实体，它能够感知环境、进行决策和执行动作。AI Agent 通常具有自主性，能够根据给定的目标或任务，独立地进行规划、执行和反思。它们可以分解复杂任务，自我批评和自我反思，从错误中学习，并改善结果。AI Agent 可以被视为具有一定程度自主性和复杂推理能力的系统，它们可以在没有人类直接干预的情况下完成任务。

AI Copilot，另一方面，通常是指一个通过AI技术赋能的智能助手，它协助人类完成各种任务。AI Copilot 可能在特定领域（如编程、写作、驾驶等）提供帮助，通过与人类的交互来提高效率和创造力。AI Copilot 可能更多地依赖于人类的输入和指导，而不是完全自主地完成任务。

简而言之，AI Agent 更强调自主性和独立完成任务的能力，而 AI Copilot 更侧重于作为人类的助手，协助完成特定任务。AI Agent 可能在复杂性和自主性方面更为先进，而 AI Copilot 则更注重与人类的协作和辅助。

讲完概念，今天继续深度下 Agent 的架构，当前问题，业界典型范例给大家参考。

典型Agent 架构

下图是一个典型的 Agent 架构。

一个 Agent 里面核心几大块：

1、大模型：负责思考，给出执行，调用的参数。

2、能力库：外挂的各种能力，比如约会议，查文档都是调用另外的系统完成。

3、历史：主要是记录上下文

4、用户澄清：当前 Agent 比较难脱离人的检查确认，所以一般有这一步用户的确认和修改过程。

5、最终展示：有多种展示形式，卡片式，或者给自然语言展示结果。

接下来看下 Agent 实际的范例和当前存在的问题。

业界 Agent 范例

Copilot 有很多成功的范例，最出名的有 GitHub copilot，Microsoft office 365 copilot。大模型已经成功在编程，文案，创意等方向有不错的实践。

当前智能体 Agent 还处在比较早期的阶段，已经有一些比较明显的成果，当前有些典型的尝试：

角色扮演类：比如英语口语老师，情感分析大师。
创作类：各种营销文案如新媒体文章，小红书文案编写等。
办公类：ppt 自动生成，研究报告生成等。

不过总的来说特别实用的 agent 其实还没有孵化出来。

从另外一个角度思考，大模型是一个全新的领域，，从成熟度角度，可以认为：

GPU > LLM > Agent builder > Agent&Application

越是底层越成熟，也只有底层成熟了才能孵化上层的业务。因此如果要有一个比较不错的 Agent，可能需要成熟的 Agent builder。可能有又有小伙伴想知道都有哪些 Agent builder，后面找时间详解一下业界都有哪些 Agent builder各自特点是什么。

下图是 AI Stack 典型技术栈，给忘记的同学回顾：

当前Agent 存在的问题

人工智能大牛吴恩达是 Agent 的拥趸，先简单回顾吴恩Agent 四范式：

Reflection（反思）：类似于AI的自我纠错和迭代。例如，AI系统会检查自己编写的代码，并提出修改建议。
Tool Use（工具使用）：大语言模型调用插件，扩展了其能力。例如，使用Copilot进行联网搜索或调用代码插件解决数理逻辑问题。
Planning（规划）：AI根据用户输入的任务，拆解流程、选择工具、调用、执行并输出结果。例如，根据一张图片中的姿态生成一张新图片，并进行描述。
Multi-agent（多智能体协作）：多个Agent协作完成任务，每个Agent可能扮演不同的角色，如CEO、产品经理或程序员。这种模式模拟了现实生活中的工作场景，能够处理复杂系统