浅谈AI Agent——大模型时代重要落地方向

taotao_2016 2023-12-30

展开全文

本文封面是《我们从何处来？我们是谁？我们向何处去？》（Where Do We Come From？ What Are We？ Where Are We Going？）是法国画家保罗·高更于1897年创作的布面油画，现藏于美国波士顿美术馆。

1. 智能涌现- Where Do We Come From？

过去基于深度学习框架可让agent（人工智能体））学到技能，但agent本身并没有真正理解问题和技能，如AlphaGo，只能用于特定领域。

现在有人要求ChatGPT扮演Linux终端来运行代码时，发现ChatGPT真的可以搞定这件事。是人们模型的训练阶段教了ChatGPT了么? 并没有，它是根据预训练的结果预测了下一个单词，相当于无师自通。

2. 发展现状- What Are We？

2.1 所有应用都值得被大模型重构一遍[1]

以自动驾驶不同阶段，来对比AI发展阶段。我们知道，至少要L4阶段，自动驾驶才会被真正批准上路，而目前绝大多数软件产品没有任何显性的AI辅助，都只是处于L1甚至L0初级阶段的产品。但是大模型成功地压缩了人类对于整个世界的认知，让我们看到了实现通用人工智能的路径。

等级	Name	名称	自动化程度	含义	示例	应用场景
L1	Tool	工具	无	人类完成所有工作,没有任何显性的AI辅助	目前绝大多数软件产品
L2	Chatbot	客服	少量自动化	人类完成绝大部分工作,类似向AI询问意见,了解信息, AI提供信息和建议但不直接处理工作	初代ChatGPT和Chatbot	智能客服、虚拟导游等
L3	Copilot	助理	部分自动化	人类和AI进行协作,工作量相当。 Al根据人类prompt完成工作初稿, 人类进行目标设定,修改调整,最后确认	Copilot、Jasper	代码补全辅助编程等
L4	Agent	自动化代理	条件自动化	AI完成绝大部分工作, 人类负责设定目标、提供资源和监督结果, AI完成任务拆分,工具选择,进度控制, 实现目标后自主结束工作	AutoGPT
L5	Species	智能体	完全自动化	完全无需人类监督, AI自主拆解目标,寻找资源,选择并使用工具,完成全部工作人类只需给出目标	类似冯诺依曼机器人
图表1 AI发展阶段对比自动驾驶不同阶段图表2 中国自动驾驶发展情况

2.2 人类与AI协同的三种模式[2]

图表3 人类与AI协同的三种模式

2.3 生成式AI是近十年来产生影响最为广泛的技术[3]

Gartner 发布了题为“Hype Cycle for Artificial Intelligence, 2023”的报告，公布了 2023 年 AI 技术成熟度曲线，对 AI 相关技术进行了系统的分析及发展预测。本次报告中，Gartner 对生成式 AI 做出了极高的评价，认为生成式AI 是近十年来产生影响最为广泛的技术，没有之一。
其中，「生成式 AI」和「基础模型」正处于期望膨胀期的巅峰。

高德纳技术成熟度曲线是个通用模型，是个可以套用很多技术的万能模型，具有学习价值。该模型认为一项技术的发展可以分为5个阶段，并且对每个阶段的边界和特征进行了明确的定义。

图表4 2023 AI 技术成熟度曲线

3. 未来前瞻- Where Are We Going？

大模型改变人工智能背后，底层的IT技术栈也发生了根本变化，即从芯片层（CPU为主）、操作系统层、应用层的三层架构，发展成为了四层架构：芯片层（GPU为主）+框架层+模型层+应用层。

3.1 何为AI-Agent

大模型应用的尽头是AI Agent，AI Agent是大模型重要落地方向[6]

根据前文等级区分，Level 4级别的Agent实现的是全自动化的决策、运行和反馈，它呈现出的更多是一种超级个体更多是一种“拟人化”的形式。它可被定义为“分身”、“员工”和任意“个体”。

OpenAI的一篇博文中， Lilian认为，在基于LLM的自动agent体系里, LLM就是作为agent的大脑，其他几个能力作为补充：计划、记忆、工具使用，而这三个模块最终驱动智能体的决策和行动。

AI Agent 智能体= LLM +规划能力+记忆能力+工具使用

·规划能力

￮子目标与拆解: Agent大脑把大的任务拆解为更小的，可管理的子任务，这对有效的、可控的处理好大的复杂的任务效果很好.

￮反省和改良: Agent能基于过去的动作做自我批评和自我反省，从过去的问题中学习从而改良未来的动作，从而能够改善最终的结果.

·记忆能力

￮短期记忆: 我会把所有基于context的学习能力 (详细请看 Prompt Engineering) ，其实就是prompt内的学习能力作为短期记忆.

￮长期记忆: Agent能够保留和无限召回的历史信息能力，这通常通过外部的向量数据库和快速取数能力组合实现.

·工具使用

￮Agent能学习到在模型内部知识不够时（比如在pre-train时不存在，且之后没法改变的模型weights）去调用外部API，比如获取实时的信息，处理代码的能力，访问专有的信息知识库等等.

3.1.3 Al Agent 智能体总体架构剖析

图表5 大模型驱动的AI Agent的基本框架

图表6 OpenAI Safety团队负责人

3.1.3 规划能力

·CoT（Continual Training）是一种改进的提示策略，它强调在训练过程中持续提供新的数据和信息，以帮助智能体不断学习和改进。这种策略对于提高AI Agent的规划能力非常有帮助，因为它可以提供更多的训练数据和更丰富的经验，帮助智能体更好地理解和应对各种复杂的情况和任务。

3.1.1 记忆能力

简单来说，检索模型擅长'找'信息，生成模型擅长'创造'内容

·RAG（检索增强生成，Retrieval-Augmented Generation）

图7 RAG的执行流程图

·向量数据库(Vector Database)：向量数据库是指专门用于存储和管理向量的数据库。在AI Agent的规划过程中，大量的数据需要以向量的形式进行存储和检索。向量数据库可以提供高效、快速的向量存储和检索功能，为AI Agent的规划和决策提供强大的支持。同时，向量数据库还可以支持各种数据分析和挖掘功能，帮助智能体更好地学习和改进。

·Embedding模型的应用：Embedding 是指将数据或特征映射到一个低维向量空间中的过程。LangChain可以利用Embedding模型将文本转换为向量，然后将其存储在向量数据库中。这样，LangChain 可以根据文本的向量表示进行相似性比较和搜索，从而实现对文本的高效处理。

·存-> 向量数据库的核心思想是将文本转换成向量（Embedding）,然后将向量存储在数据库中。

·取-> 将用户输入的问题转成向量，然后在数据库中检索最相似的向量，以及向量对应的文本（记忆），返回给LLM，生成回答。

图表8 基于LangChain下的RAG交互过程

3.1.1 工具使用

巧妇难为无米之炊，仅靠 LLM 自身能做的事情还是比较有限，比如：LLM可以帮忙写代码，但是无法执行代码，因此要让LLM能做更多事情，就需要借它点工具。一些工具类型：

·ChatGPT Plugins

·OpenAI API function calling

·Code Interpreter

·HuggingGPT

3.2 大模型增强vs. 大模型原生

3.2.3 LLM-Empowered

指将LLM技术应用于现有系统或工具以提升其功能和性能；
这种方法通常涉及到对现有系统或工具进行改进和优化，以适应大型语言模型的应用。LLM-Empowered的优势在于它可以通过利用大型语言模型的能力来提高现有系统的性能和效率。

3.2.3 LLM-Native

指从设计之初就将LLM作为核心功能考虑的系统或应用，是完全建立在大模型技术特点上的全新应用形态;
这种方法需要对系统或工具进行重新设计和开发，以便能够充分利用大型语言模型的能力。LLM-Native的优势在于它可以更好地利用大型语言模型的能力，并且可以更好地适应特定的应用场景和需求。

3.3 GPTs vs. AI-Agent

Chat (GPTs)向左, AI-Agent 向右

GPTs是AI-Agent初级形态

3.3.1 公开的GPTs

·公开的

·GPTs类比appstore的应用app

·GPTs store生态未来将造就大量淘金者

·GPTs受众是公域的c端用户

·GPTs主要目标，面向业务人员, 最终目的替代兼职人员+提升效率

·技术栈有一定限制：受制于OPEN和GPT4

·技术和安全挑战：几句话Prompt就能套走GPTs的数据库

·未来自由组织形态: 人+GPTs

3.3.2 定制AI-Agent

·定制的

·AI Agent是copilot的下一代产物

·Agent是大模型时代的落地代言人

·Agent弥补大模型应用最后一公里

·Agent主要目标，面向开发人员，最终目的是替代人

·技术和安全挑战：企业数据不可能交付给别人的大模型

·未来严肃组织形态: 人+AI Agent

3.4 单智能体vs. 多智能体

AI-Agent大致会分两个方向: Agents Systems(单智能体)和Multi-Agents(多智能体)

在多智能体系统中，多个智能体需要协同工作以实现共同的目标。多智能体协同规划方法需要考虑多个智能体之间的交互和合作，以制定最佳的行动方案。

3.4.3 多智能体：未来200人的公司只需5个人就能运作

未来公司架构是不限于工程师，项目经理；包括CEO、COO、CFO、CTO在内都能被AI Agent所替代。
软件公司或者变成这样的架构运作，或者迫于成本压力被这样架构的公司所击败。
毕竟未来如果让软件工程师去开发，至少需要几万块钱的人工费，时间两周起步。但使用Agent开发，价格只需要几元到几十元，最快几分钟就能跑通一个应用。

下图，每一个模块就是一个AI Agent。