引言 本篇文章将深入探讨AI Agent是什么?它是如何运作的?它实际应用场景有哪些以及对我们的生活会带来哪些改变。请坐好,准备发车啦~ 随着大语言模型(LLM)在23年的快速发展,大模型逐步收敛为以闭源为代表的ChatGPT和以开源为代表的Llama2 大模型本身也在朝着多模态的方向发展,这意味着模型能够处理不同类型的数据,如:文本、图片、视频和音频,其本质是丰富模型的信息处理与生成能力,能够更好地理解现实世界,处理复杂问题 LLM vs Agent 虽然大语言模型的能力足够强大,但它依旧是被动的响应用户的指令,并且生成的效果取决于使用者如何使用它 而AI Agent(智能代理)的出现,将改变这一现状 它是一个自动化的程序,它具备自主规划和执行的能力,它也被视为通往AGI(通用人工智能)的钥匙 (From:《The Rise and Potential of Large Language Model Based Agents: A Survey》) 分别是:语料库、互联网、感知、具身和社会属性 目前的大语言模型已经来到了第二级,具备互联网实时访问的多模态内容输出 AI Agent在LLM的基础之上在往感知、具身和社会属性的方向方展 当其具备感知环境与行动的能力时,将进入到第三和第四级别 再进一步,当多个Agent通过它们之间的互动、合作,且具备情感属性,能够处理更加复杂的任务或反映现实世界中的社会行为时,Agent将进入第五级 图片来源:《The Rise and Potential of Large Language Model Based Agents: A Survey》 01、什么是AI Agent? Agent被翻译为代理或者智能体 它核心的作用是具备自主实现目标的能力,能够感知外部环境,具备自主性、反馈性、积极性和情感社交属性的智能体。 光这样描述还是很抽象,以我们的日常行为进行一个比喻: 人类处理任何问题和任务时,都会经历信息输入->信息处理->信息输出过程 信息输入:主要通过人类感官系统,视觉、听觉、味觉、触觉等 信息处理:主要通过人类的大脑进行规划与决策 信息输出:主要通过人类的语言和四肢所采取的行动 小明想要吃树上的苹果,首先通过感官系统感知到苹果树上的苹果,然后在大脑中思考如何采摘苹果,最后借助采摘工具,拿到苹果后成功地放到嘴巴里津津有味地吃了起来 我们将上述的场景抽象成模型,其实就形成了AI Agent的大致框架 分以下几个模块
其中最关键的是大脑部分(规划&决策),由ChatGPT、Llama2、Gemini这样的大语言模型作为Agent的大脑,增强了Agent的规划与决策的能力 我们将上图进行进一步的抽象和延展,就是网上广为流传由OpenAI提出的Agent的模型图 图片来源:《LLM Powered Autonomous Agents》 其实和上图模型中各模块的关联关系差不多,只是OpenAI将AI Agent各模块的相关信息呈现的更丰富,基于这张模型图,可以拆分为以下几个模块:规划、记忆、工具和行动 Memory-记忆模块部分
将规划模块进行细分 其中思维链(CoT)和子目标分解(Subgoal Decomposition)是为了将复杂目标进行拆分,找到最优的执行路径 而反思(Reflection)和自我批判(Self-critics)模块,引入强化学习机制,通过环境的反馈状态,能从错误中吸取'教训',从而提高结果的质量 图片来源:《The Rise and Potential of Large Language Model Based Agents: A Survey》 Agent具体的行动方式分类三类
我们用一个简单的公式做个阶段性的总结: Agent = LLM + 记忆 + 感知&反思 + 规划+ 工具使用
|
|