分享

大模型下半场,AI Agent 的里子和面子

 long16 2024-05-25 发布于河南

大模型发展到现在,大家都开始比拼AI应用和AI Agent了。而作者的观点是:AI Agent 将是下一个超级平台。这话怎么说起?请看作者的分析。

大模型下半场,AI Agent 的里子和面子

刺客甲:

陛下,我们也是人啊。

麦克白:

是啊,说起来,你们也算是人,正像家狗、野狗、猎狗、叭儿狗、狮子狗、杂种狗、癞皮狗,统称为狗一样。

——引自威廉·莎士比亚《麦克白》

一、AI Agent 将是下一个超级平台

缓慢的生物进化和急速的科技进化

宇宙大爆炸距今138亿年,宇宙元老星系银河系有130亿寿命,距今约5万年到10万年间智人迁移出非洲大陆,从此科技发展进入高速通道。

单独来讲,生物进化是狭隘和缓慢的,达尔文的进化论进化不出无线电、电磁波、火车和手机。

而科技延展了宇宙进化的圈层,优秀的AI Agent是科技未来新的交互形式。

2023年11月9日,比尔盖茨在其个人博客中,《人工智能即将彻底改变你使用计算机的方式》一文中说,:

“Android、iOS 和 Windows 都是平台。AI Agent 将是下一个平台。”

正如本文开头中所提,麦克白回复的一样,狗有很多种,也会各种不的AI Agent。

AI大模型的发散性大于精确性,而AI Agent相反

大模型的一直的诟病是会出现“幻觉”,前不久,OpenAI首席执行官萨姆·奥特曼在比尔·盖茨在个人播客《为我解惑》说:

“GPT模型的幻觉是一个特性,而不是缺陷,它能让你发现一些新事物。”

很有哲学上否定之否定的味道。

可以把大模型幻觉理解成“猜想”,而猜想的发散性,是科技范式转移的核心关键。

哲学家卡尔波普尔对“猜想”的哲学解释是:“创造性批评和创造性猜想交织在一起,是人类学习彼此行为,包括语言,并从彼此话语中提取意义的方式”。

可以说,没有大模型的幻觉,就没有发展可言。

而AI Agent 更要求精确性。

比如我想要一个给我规划行程的Agent,或是某个行业的最新资讯和报告,幻觉就真的是缺陷。

但当下,即使在ChatGpt的GPTs应用或是字节的Coze平台,你会发现很少有真正可用的,更好解决问题的Agent。

所以,AI Agent会只是一时的泡沫么?

二、开发AI Agent犹如造人

神话里的女娲造人很简单,用泥巴捏一捏就出现了小人,而造一个优秀的AI Agent底层会复杂很多。

合格的Agent应该是一个可以可以自主思维和规划纠错的智能体。

描述一个人,可以从外表、性格、年龄、出生背景、学历、兴趣爱好、思维逻辑、情感处理等等方面去描述。

定义一个AI Agent也相似,不过更多的是隐性的部分。

OpenAI的安全团队的负责人Lilian Weng在其博客,《LLM 支持的自主代理》一文中,用6000字详细解释下AI Agent的组成部分。

大模型下半场,AI Agent 的里子和面子

AI Agent被定义3个组成部分:规划(Planning) 记忆(Memory) 工具使用(Tool Use) 。

规划可以理解是思维逻辑,记忆是本身知识储备,工具使用是对外连接和处理能力。

规划

子目标和分解:代理将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。

反思和完善:智能体可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。

记忆

短期记忆:我认为所有的上下文学习都是利用模型的短期记忆来学习。

长期记忆:这为代理提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索。

工具使用

代理学习调用外部 API 来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。

对照字节推出的Coze平台,在创建一个Bot时的任务界面,可发现底层逻辑上的一致性:

大模型下半场,AI Agent 的里子和面子

体验了几个平台对比:

大模型下半场,AI Agent 的里子和面子

从实际体验上来看,Coze的的功能性是最强的,也是复杂度最高的,有些部分需要编程的能力,扣子和GPTs相似。

最终效果上,如果从实现自主规划的智能的标准来定义,目前三个平台都不足以称得上优秀。

Coze的问题在于实现的复杂性门槛会阻碍大批的Agent制作者。

扣子的问题在于属于前期阶段,基础设施还需要进一步规划,比如可发布的平台,插件的丰富性。

GPTs的问题在于对于实现复杂的Agent,缺失的Flow不足以支撑实现,也许Open AI也在规划更好的方案,比如基于Flow的自动生成方案?

三、AI Agent要有扎实的里子和多变的面子

AI Agent = 大模型+规划+记忆+工具

前三个是里子,最后的工具是面子。

这里说的面子不是虚假的人设,而是进化的多面能力。

大模型的发展依赖巨头们的发展和竞争,不单是软件层面,硬件层面的芯片也至关重要。

《芯片战争》书中提到台积电、因特尔、英伟达、阿斯麦、三星等等厂商的发展史,非常值得一读。

最近OpenAI放言斥7万亿美元打造新的芯片帝国,资本的重要性可见一斑。

规划依赖兼具产品和编程思维能力的角色的贡献,真的可用的Agent一定不是简单模块组合可实现的,如果有,也只是昙花一现。

定义AI Agent属于规划的一环,也许研究人的生物学家在这方面会更胜一筹。

记忆依赖优质的丰富数据源和更新迭代和更新机制,比如我想做一个资讯Agent,如何定义资讯的优质,就需要有科学的标准范式。

工具依赖平台的开放性和标准的统一,工具更想人类生活的终生学习的能力,一个好的Agent应该具有与时俱进的能力。

以上要素,缺一不可。

AI大模型催生了Prompt Enginner的工作角色,AI Agent催生了Flow Enginner。

所以AI替代的永远都不是人,而是Work。

没有无缘无故的消失,会有转化和变化。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多