分享

浅谈AI Agent——大模型时代重要落地方向

 taotao_2016 2023-12-30

图片

本文封面是《我们从何处来?我们是谁?我们向何处去?》(Where Do We Come From? What Are We? Where Are We Going?)是法国画家保罗·高更于1897年创作的布面油画,现藏于美国波士顿美术馆。

1. 智能涌现- Where Do We Come From

过去基于深度学习框架可让agent(人工智能体))学到技能,但agent本身并没有真正理解问题和技能,如AlphaGo,只能用于特定领域。

现在有人要求ChatGPT扮演Linux终端来运行代码时,发现ChatGPT真的可以搞定这件事。是人们模型的训练阶段教了ChatGPT了么? 并没有,它是根据预训练的结果预测了下一个单词,相当于无师自通。

2. 发展现状- What Are We

2.1 所有应用都值得被大模型重构一遍[1]

以自动驾驶不同阶段,来对比AI发展阶段。我们知道,至少要L4阶段,自动驾驶才会被真正批准上路,而目前绝大多数软件产品没有任何显性的AI辅助,都只是处于L1甚至L0初级阶段的产品。但是大模型成功地压缩了人类对于整个世界的认知,让我们看到了实现通用人工智能的路径。

等级

Name

名称

自动化程度

含义

示例

应用场景

L1

Tool

工具

人类完成所有工作,没有任何显性的AI辅助

目前绝大多数软件产品


L2

Chatbot

客服

少量自动化

人类完成绝大部分工作,类似向AI询问意见,了解信息,
AI提供信息和建议但不直接处理工作

初代ChatGPT和Chatbot

智能客服、虚拟导游等

L3

Copilot

助理

部分自动化

人类和AI进行协作,工作量相当。
Al根据人类prompt完成工作初稿,
人类进行目标设定,修改调整,最后确认

Copilot、Jasper

代码补全
辅助编程等

L4

Agent

自动化代理

条件自动化

AI完成绝大部分工作,
人类负责设定目标、提供资源和监督结果,
AI完成任务拆分,工具选择,进度控制,
实现目标后自主结束工作

AutoGPT


L5

Species

智能体

完全自动化

完全无需人类监督,
AI自主拆解目标,寻找资源,选择并使用工具,完成全部工作
人类只需给出目标

类似冯诺依曼机器人


图表1 AI发展阶段对比自动驾驶不同阶段

图片

图表2 中国自动驾驶发展情况

2.2 人类与AI协同的三种模式[2]

图片

图表3 人类与AI协同的三种模式

2.3 生成式AI是近十年来产生影响最为广泛的技术[3]

Gartner 发布了题为“Hype Cycle  for Artificial Intelligence, 2023”的报告,公布了 2023 年 AI 技术成熟度曲线,对 AI 相关技术进行了系统的分析及发展预测。本次报告中,Gartner 对生成式 AI 做出了极高的评价,认为生成式AI 是近十年来产生影响最为广泛的技术,没有之一
其中,「生成式 AI」和「基础模型」正处于期望膨胀期的巅峰。

高德纳技术成熟度曲线是个通用模型,是个可以套用很多技术的万能模型,具有学习价值。该模型认为一项技术的发展可以分为5个阶段,并且对每个阶段的边界和特征进行了明确的定义。

图片

图表4 2023 AI 技术成熟度曲线

3. 未来前瞻- Where Are We Going

大模型改变人工智能背后,底层的IT技术栈也发生了根本变化,即从芯片层(CPU为主)、操作系统层、应用层的三层架构,发展成为了四层架构:芯片层(GPU为主)+框架层+模型层+应用层。

3.1 何为AI-Agent

大模型应用的尽头是AI AgentAI Agent是大模型重要落地方向[6]

根据前文等级区分,Level 4级别的Agent实现的是全自动化的决策、运行和反馈,它呈现出的更多是一种超级个体更多是一种“拟人化”的形式。它可被定义为“分身”、“员工”和任意“个体”。

OpenAI的一篇博文中, Lilian认为,在基于LLM的自动agent体系里, LLM就是作为agent的大脑,其他几个能力作为补充:计划、记忆、工具使用,而这三个模块最终驱动智能体的决策和行动。

AI Agent 智能体= LLM +规划能力+记忆能力+工具使用

·规划能力

○子目标与拆解: Agent大脑把大的任务拆解为更小的,可管理的子任务,这对有效的、可控的处理好大的复杂的任务效果很好.

○反省和改良: Agent能基于过去的动作做自我批评和自我反省,从过去的问题中学习从而改良未来的动作,从而能够改善最终的结果.

·记忆能力

○短期记忆: 我会把所有基于context的学习能力 (详细请看 Prompt Engineering) ,其实就是prompt内的学习能力作为短期记忆.

○长期记忆: Agent能够保留和无限召回的历史信息能力,这通常通过外部的向量数据库和快速取数能力组合实现.

·工具使用

○Agent能学习到在模型内部知识不够时(比如在pre-train时不存在,且之后没法改变的模型weights)去调用外部API,比如获取实时的信息,处理代码的能力,访问专有的信息知识库等等.

3.1.3 Al Agent 智能体总体架构剖析

图片

图表5 大模型驱动的AI Agent的基本框架

图片

图表6 OpenAI Safety团队负责人

3.1.3 规划能力

·CoT(Continual Training)是一种改进的提示策略,它强调在训练过程中持续提供新的数据和信息,以帮助智能体不断学习和改进。这种策略对于提高AI Agent的规划能力非常有帮助,因为它可以提供更多的训练数据和更丰富的经验,帮助智能体更好地理解和应对各种复杂的情况和任务。

3.1.1 记忆能力

简单来说,检索模型擅长'找'信息,生成模型擅长'创造'内容

·RAG(检索增强生成,Retrieval-Augmented Generation)

图片

图7 RAG的执行流程图

·向量数据库(Vector Database):向量数据库是指专门用于存储和管理向量的数据库。在AI Agent的规划过程中,大量的数据需要以向量的形式进行存储和检索。向量数据库可以提供高效、快速的向量存储和检索功能,为AI Agent的规划和决策提供强大的支持。同时,向量数据库还可以支持各种数据分析和挖掘功能,帮助智能体更好地学习和改进。

·Embedding模型的应用:Embedding 是指将数据或特征映射到一个低维向量空间中的过程。LangChain可以利用Embedding模型将文本转换为向量,然后将其存储在向量数据库中。这样,LangChain 可以根据文本的向量表示进行相似性比较和搜索,从而实现对文本的高效处理。

·-> 向量数据库的核心思想是将文本转换成向量(Embedding),然后将向量存储在数据库中。

·-> 将用户输入的问题转成向量,然后在数据库中检索最相似的向量,以及向量对应的文本(记忆),返回给LLM,生成回答。

图片

图表8 基于LangChain下的RAG交互过程

3.1.1 工具使用

巧妇难为无米之炊,仅靠 LLM 自身能做的事情还是比较有限,比如:LLM可以帮忙写代码,但是无法执行代码,因此要让LLM能做更多事情,就需要借它点工具。一些工具类型:

·ChatGPT Plugins

·OpenAI API function calling

·Code Interpreter

·HuggingGPT

3.2 大模型增强vs. 大模型原生

3.2.3 LLM-Empowered

指将LLM技术应用于现有系统或工具以提升其功能和性能;
这种方法通常涉及到对现有系统或工具进行改进和优化,以适应大型语言模型的应用。LLM-Empowered的优势在于它可以通过利用大型语言模型的能力来提高现有系统的性能和效率。

3.2.3 LLM-Native

指从设计之初就将LLM作为核心功能考虑的系统或应用,是完全建立在大模型技术特点上的全新应用形态;
这种方法需要对系统或工具进行重新设计和开发,以便能够充分利用大型语言模型的能力。LLM-Native的优势在于它可以更好地利用大型语言模型的能力,并且可以更好地适应特定的应用场景和需求。

3.3 GPTs vs. AI-Agent

Chat (GPTs)向左, AI-Agent 向右

GPTs是AI-Agent初级形态

3.3.1 公开的GPTs

·公开的

·GPTs类比appstore的应用app

·GPTs store生态未来将造就大量淘金者

·GPTs受众是公域的c端用户

·GPTs主要目标,面向业务人员, 最终目的替代兼职人员+提升效率

·技术栈有一定限制:受制于OPEN和GPT4

·技术和安全挑战:几句话Prompt就能套走GPTs的数据库

·未来自由组织形态: 人+GPTs

3.3.2 定制AI-Agent

·定制的

·AI Agent是copilot的下一代产物

·Agent是大模型时代的落地代言人

·Agent弥补大模型应用最后一公里

·Agent主要目标,面向开发人员,最终目的是替代人

·技术和安全挑战:企业数据不可能交付给别人的大模型

·未来严肃组织形态: 人+AI Agent

3.4 单智能体vs. 多智能体

AI-Agent大致会分两个方向: Agents Systems(单智能体)和Multi-Agents(多智能体)

在多智能体系统中,多个智能体需要协同工作以实现共同的目标。多智能体协同规划方法需要考虑多个智能体之间的交互和合作,以制定最佳的行动方案。

3.4.3 多智能体:未来200人的公司只需5个人就能运作

未来公司架构是不限于工程师,项目经理;包括CEO、COO、CFO、CTO在内都能被AI Agent所替代。
软件公司或者变成这样的架构运作,或者迫于成本压力被这样架构的公司所击败。
毕竟未来如果让软件工程师去开发,至少需要几万块钱的人工费,时间两周起步。但使用Agent开发,价格只需要几元到几十元,最快几分钟就能跑通一个应用。

下图,每一个模块就是一个AI Agent。

图片

图表7 未来内容生产的公司架构

4. 不必悲观

4.1 大模型存在以下问题

·幻觉:生成看似正确实际上非常错误的内容误导用户;

如今没有一种模型不会产生幻觉, 即大模型分不清事实和虚构,捏造和相信一些不存在的事实。
基本上,在与模型对答6次以上就会发生. 所以想要ChatBot产生机器幻觉, 可能需要重开客户端.
这对于工业控制场景来说是致命的。
但是通过大模型来输出代码, 再由代码来控制可能是一种思路, 毕竟代码是

·偏见:受到有问题的训练数据影响,可能会生成偏见、歧视性或不当的言论;

·黑箱:生成决策过程不透明,难以解释;

·逻辑:本质上是概率预测,还不能非常准确处理逻辑问题;

·过时:特定数据集的预训练,使其难以理解和回应在数据集创建后出现的新概念;

·成本:训练大模型需要消耗极其巨大的计算资源,一般机构无法负担这样的花费;

4.2 人类与智能体的博弈竞争关系

在未来工作的可能危机应该是人类与多智能体的博弈。

为什么要与多智能体博弈呢?这与智能体的前沿研究有关,因为他们试图模拟人类的行为,甚至替代人类。

1.第一个竞争力将取决于你对模型性能、选择适当模型和工具以及执行步骤的理解;

AI时代的职场竞争力: 模型、策略与流程;更少的流程意味着更少的算力成本。

2.第二个核心竞争力就是智能体的博弈中找到最好的合作方式,人类的自我反思能力有限,在这种多智能体的博弈中,它们将快速找到更好的解决方案

3.大模型的工作催生了新的工作需求

关闭了一扇门,打开一扇窗

除了等待基座模型自身迭代之外,借助外部力量(向量存储、检索、代码等)是重要方法,完整的AGENT框架应该具备这些能力。这又诞生了新的业务需求,如提示词工程、向量数据库工程等

4.4 程序员与LLM 优劣势对比

按照目前观察,人类更擅长抽象层次高的任务,而LLM擅长颗粒度小,确定性强的任务。

图片

图表8 程序员与 LLM 优劣势对比

按照目前观察,橙色部分是LLM可以部分替代,灰色部分将在不久将来逐步被LLM所替代。

图片

图表9 程序员与 LLM 优劣势对比

4.5 LLM来做工业控制的思路之提示词工程[5]

LLM依然需要采集端和控制端实现对环境的理解和对系统的控制。

·获取系统的状态

·将状态(数值)转为自然语言便于LLM理解

·获取历史状态

·对状态描述进行embedding,或者向量表示用于检索或聚类

·通过KNN检索相似状态的一些样本

·通过聚类找出一些靠近不同类的“具有代表性”的样本

·结合前面各种信息得到最终的prompt,喂给LLM得到输出,然后作用到被控系统

图片

图表10 LLM来做工业控制的思路

5. 相关链接

1.《大模型改变世界》
—— 2023中关村论坛演讲,李彦宏,2023年05月26日

2.《LLM Powered Autonomous Agents》《LLM驱动的自主代理》
—— OpenAI负责安全领域的科学家,Lilian Weng,2023年6月23日

3.《2023 AI 技术成熟度曲线》
—— 全球著名咨询调查机构,Gartner,2023年7月

4.《AI is about to completely change how you use computers》
—— 盖茨个人网站,比尔·盖茨,2023年11月9日

5.《PRE-TRAINED LARGE LANGUAGE MODELS FOR INDUSTRIAL CONTROL》《工业控制中预先训练的大型语言模型》
—— 微软亚洲研究院,

6.“如今AI智能体才是未来最前沿的方向”“相比大模型训练,OpenAI内部目前更关注Agent领域”
—— OpenAI科学家Karpathy

7.《多智能体博弈、学习与控制》
—— 自动化学报,王龙,黄锋,北京大学人工智能研究院,2023年3月

8.《纯干货全面解读AI框架RAG》
——

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多