深度剖析AI Agent的原理及应用发展

天承办公室 2024-01-05 发布于北京

展开全文

引言

本篇文章将深入探讨AI Agent是什么？它是如何运作的？它实际应用场景有哪些以及对我们的生活会带来哪些改变。请坐好，准备发车啦～

随着大语言模型（LLM）在23年的快速发展，大模型逐步收敛为以闭源为代表的ChatGPT和以开源为代表的Llama2

大模型本身也在朝着多模态的方向发展，这意味着模型能够处理不同类型的数据，如：文本、图片、视频和音频，其本质是丰富模型的信息处理与生成能力，能够更好地理解现实世界，处理复杂问题

LLM vs Agent

虽然大语言模型的能力足够强大，但它依旧是被动的响应用户的指令，并且生成的效果取决于使用者如何使用它

而AI Agent（智能代理）的出现，将改变这一现状

它是一个自动化的程序，它具备自主规划和执行的能力，它也被视为通往AGI（通用人工智能）的钥匙

从NLP -> AGI 的发展路线分为五个级别

（From:《The Rise and Potential of Large Language Model Based Agents: A Survey》)

分别是：语料库、互联网、感知、具身和社会属性

目前的大语言模型已经来到了第二级，具备互联网实时访问的多模态内容输出

AI Agent在LLM的基础之上在往感知、具身和社会属性的方向方展

当其具备感知环境与行动的能力时，将进入到第三和第四级别

再进一步，当多个Agent通过它们之间的互动、合作，且具备情感属性，能够处理更加复杂的任务或反映现实世界中的社会行为时，Agent将进入第五级

图片来源：《The Rise and Potential of Large Language Model Based Agents: A Survey》

01、什么是AI Agent?

Agent被翻译为代理或者智能体

它核心的作用是具备自主实现目标的能力，能够感知外部环境，具备自主性、反馈性、积极性和情感社交属性的智能体。

光这样描述还是很抽象，以我们的日常行为进行一个比喻：

人类处理任何问题和任务时，都会经历信息输入->信息处理->信息输出过程

信息输入：主要通过人类感官系统，视觉、听觉、味觉、触觉等

信息处理：主要通过人类的大脑进行规划与决策

信息输出：主要通过人类的语言和四肢所采取的行动

我们来想想一个场景：

小明想要吃树上的苹果，首先通过感官系统感知到苹果树上的苹果，然后在大脑中思考如何采摘苹果，最后借助采摘工具，拿到苹果后成功地放到嘴巴里津津有味地吃了起来

我们将上述的场景抽象成模型，其实就形成了AI Agent的大致框架

分以下几个模块

其中最关键的是大脑部分（规划&决策），由ChatGPT、Llama2、Gemini这样的大语言模型作为Agent的大脑，增强了Agent的规划与决策的能力

02、AI Agent关键模块说明

我们将上图进行进一步的抽象和延展，就是网上广为流传由OpenAI提出的Agent的模型图

图片来源：《LLM Powered Autonomous Agents》

其实和上图模型中各模块的关联关系差不多，只是OpenAI将AI Agent各模块的相关信息呈现的更丰富，基于这张模型图，可以拆分为以下几个模块：规划、记忆、工具和行动

Memory-记忆模块部分

将记忆模块分为两个子模块，分别是

短期记忆模块：提示词工程中的上下文，类比于人类的感知模块，是外部信息的输入，如：文本/图片/视频/音频
短期记忆模块受到模型的上下文的限制
我们常看到的GPT-4 Turbo支持128k上下文指的就是模型能够记住的上下文长度，超过上下文的限制后，LLM就会忘记之前输入的信息（犹如得了阿尔兹海默症）
长期记忆模块：支持向量库检索，类比于人类的博物馆，支持在执行任务时调用博物馆中的知识。
长期记忆分为：