分享

吴恩达:AI Agent工作流的未来

 jc_ipec 2024-04-28 发布于浙江

https://mp.weixin.qq.com/s/8zCu-OGYMDxwg_TZzsSmZw 

AI Agent(智能体)一直是AI圈的热门话题之一,近期在美国红杉人工智能峰会(AI Ascend)上,吴恩达教授再次大谈 智能体工作流

在这次演讲中,他分享了智能体工作流的迭代模式,并基于Human Eval基准测试进行了效果分析。

此外,还总结了对于AI智能体设计模式的四种分类,包括反思(Reflection)、工具使用(Tool Use)、规划(Planning)、多智能体协作(Multiagent Collaboration),并展望了AI智能体未来的发展潜力。

智能体工作流模式


目前,大多数人使用大语言模型的方式是一种非智能体工作流,也就是输入一个提示,模型生成一个回答。

这类似于让一个人坐在电脑面前就某个话题从头到尾写完一篇文章,且中间不允许使用退格键。对于人类来说做起来很难,但大语言模型做的还是很好。

相比之下,智能体工作流则可能是这样

1. 首先,让大语言模型写一个文章大纲

2. 需要上网查东西吗?如果需要,就联网查

3. 写出初稿

4. 阅读初稿,思考哪些部分需要修改

5. 修改这篇初稿

6. 再读再修改,如此循环往复、迭代多次

所以,这里智能体工作流是一个迭代的过程,你会让模型多进行一些思考,直到得到一个满意的结果。

基于Human Eval基准的效果测试


为了说明智能体工作流的有效性,吴恩达教授的团队使用Human Eval编码评估基准对其做了一些数据分析。

这个基准包含一些编程问题,比如给定一个非空整数列表,返回所有位于偶数位上的所有奇数的数值之和,AI会生成一段代码片段。

目前,大部分的人会使用零样本提示(zero-shot),也就是直接让大模型编写代码,并一次运行,但实际上,没有人是这样写代码的。

研究发现,在零样本提示下,GPT3.5的准确率只有48%,GPT4能达到67%。

但如果在GPT3.5上使用智能体工作流,实际上能表现的更好,甚至比GPT4好;当然如果在GPT4上使用智能体工作流,GPT4也能表现更出色。这意味着智能体工作流对于应用程序的构建有着重大影响。

四种Agent模式


当前,围绕智能体的设计有大量的研究或者项目,基于现状,吴恩达教授总结了AI Agent的四种常见设计模式。

1. Reflection:反思,让 Agent 审视和修正自己生成的输出;

2. Tool Use:使用工具,让大语言模型进行生成代码、调用 API 等实际操作;

3. Planning:规划,让 Agent 分解复杂任务并按计划执行;

4. Multiagent Collaboration:多智能体协作,多个 Agent 扮演不同角色合作完成任务;

Reflection很多人都应该使用,也很有效,Tool Use相对得到更广泛的认可,这两种模式是目前相对稳健的技术,而规划和多智能体协作是属于正在兴起的技术,虽然有时候效果令人惊艳,但目前还不是很稳定。

#Reflection

反思模式允许 AI Agent 在完成任务后,能够对自身的输出进行再次审核和评估

在这种模式下,AI Agent 不仅是执行任务,而是能够像人类专家一样,对自己的工作进行批判性思考。

例如,对于一个指定的编码任务,AI Agent 会接受提示,生成一段代码,而自我反思实际做的就是,我们会将这段代码再次输给语言模型,提示它这是执行某个任务的代码,让它仔细检查这段代码的正确性、效率和结构,并提出可能的改进措施 。

在采纳这样的改进反馈后,生成代码的模型可能会生成更好的代码版本。

这种自我监督和修正的能力,使得AI Agent在执行任务时能够不断提高准确性和效率。

#Tool Use

工具使用赋予 AI Agent 使用外部工具和资源的能力

很多人已经见过大模型使用工具,比如常见的联网搜索,生成并执行代码等,很多不同的工具被用于分析、收集信息、执行操作,从而提高生产效率。

又比如在早期,在GPT4V、LLaVa等多模态模型诞生之前,AI Agent常常会调用图像处理工具来分析和处理图像数据,或者调用 API 来获取和整合外部信息

工具使用使模型能与外部系统交互,扩展了大语言模型的能力和应用范围。

#Planning

规划模式,强调AI Agent面对复杂任务时,能对任务进行分解,并按照步骤执行

以下是一个改编自huggingGPT论文中的一个例子。

输入的提示是:请生成一张图像,一个女孩在看书,它的姿态和示例图中的男孩一样,然后请用语音重新描述这张新的图片。

在Agent工作流下,可能会分解成如下步骤:

1. 确定男孩的姿态,可能在Huggingface上找到合适的姿态模型提取姿势

2. 使用一个pose2image模型,遵循指令生成一张女孩的图像

3. 使用image2text模型得到图像的描述

4. 使用text2speech模型将文本描述转成语音

在规划模式下,AI Agent 能够展现出类似于人类的前瞻性和策略性思维。

当然这种工作流并不稳定,有时候会有些繁琐,不一定能成功,但是一旦成功,效果是令人惊艳的。

#Multiagent Collaboration

多智能体协作突出了多个 AI Agent 之间的合作和协调

比如斯坦福的西部小镇SmallVille,就是基于层次规划的智能体社会小镇,来实现对人类社群行为的可信模拟。

这是一个由25个AI Agent构成的数字社区,这些Agent不仅能在这里上班、闲聊、social、交友,甚至还能谈恋爱,而且每个Agent都有自己的个性和背景故事。


SmallVille

大家可能都知道最近名声大噪的AI工程师Devin,全球首个全自主的AI软件工程师智能体,7×24小时打工人。

这里参考开源项目ChatDev,它是一个多智能体协作的虚拟软件公司,在这里你可以设置一个大语言模型扮演软件公司的CEO、设计师、产品经理、测试等不同岗位角色,群体协作实现一款软件的开发。

多智能体模式下,可以模拟真实世界中的团队工作流程,每个 AI Agent 都可以扮演特定的角色,并与其他 AI Agent 共同协作以完成复杂的任务。

虽然这个模式目前不一定稳定,但是这个技术正在不断进步,未来可期。


ChatDev

结论


AI Agent工作流能比传统的工作流取得更好地效果,吴恩达教授认为,在GPT5/Claude4/Gemini 2.0出来之前,通过agent工作流,你可能在旧版本的模型上就可以更早地接近它们零样本的效果。

得益于AI Agent工作流,AI能做的事今年将大幅扩展,这四个智能体涉及的模式也会变得非常关键。

快速的token生成是很重要的,因为在Agent工作流中需要不断迭代,质量稍低的大模型如果生成速度够快也可以比质量更高但生成速度慢的模型取得更好的效果。

人们需要耐心适应Agent工作流的方式,目前人们习惯即时获取,即时反馈,但对于Agent工作流而言,需要耐心来产生最佳结果。

本次吴恩达教授演讲的主题是 'Agentic Reasoning' ,这也体现出AI Agent不止是对输入做出反应,而是能自主思考,推理和决策,这种方式使得AI Agent更像一个有自主意识的智能体。

AI Agent 会是通向AGI 的终极路径吗或者说AI Agent就是AI的终极形态吗?

这里刚好借用吴恩达教授最后的结束语:通往通用人工智能的道路宛如一场旅程,而非终点,相信Agent能帮我们在这条漫长征途上迈出微小而坚实的一步。

参考链接:

https://www./watch?v=sal78ACtGTc

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多