分享

什么是AI智能体?

 刘沟村图书馆 2024-05-02 发布于河南

图片

背景知识

最近,我对AI智能体产生了浓厚的兴趣,想要了解它到底是什么,为何会出现这样一个概念,以及它是为了解决什么问题而诞生的。在请教了一些朋友后,我发现大家更多是在谈论官方概念,比如“AI智能体是一个XXXXX……巴拉巴拉”。经过一段时间的研究,我想分享一下我对AI智能体的理解。我曾经开发过带语音交互和屏幕的面向老年人的桌面机器人产品,虽然它不能被称为真正意义上的智能体,但系统设计思路与之相差不大。因此,我计划写一个完整系列,将AI智能体的概念到生产级别的落地方案讲解清楚。今天是概念篇。

AI智能体是什么

AI智能体,其本质就是一个代理程序,旨在增强人类与大模型的交互。首先,大模型本身是一个文本模型,只能接收和返回文本信息。例如,我们要通过语音的方式与大模型交流,就需要应用端先将其转化为文字,然后再与大模型进行交互,这个过程完全由代理程序自动完成,无需人工干预。其次,大模型本身不具备记忆功能,而实现上下文记忆功能的逻辑也需要由代理来实现。最后,调用外部工具,例如实现类似于“小度小度,今天的天气怎么样?”的功能,也需要代理程序去调用相应的接口来实现。因此,AI智能体本质上就是一个以大模型为基础推理能力的代理程序,使用“智能体”这一概念是为了区别于传统代理程序,突出其更加智能的特点。
AI智能体的核心能力
目前的业界共识是,AI智能体的核心能力包括推理、记忆和使用外部工具,这些能力都是基于大模型的基础能力而构建的。
推理能力:例如,当我们说“小度小度,今天天气怎么样?”,AI智能体需要调用大模型来推理出我们需要使用查询天气的工具。传统上,这可以通过自然语言理解(NLU)来实现,基于词向量之间的相似度(如余弦距离)来进行对比。但这种方法的缺点是精度不够,尤其是对近义词的匹配。而现在,使用大模型进行推理,由于其基于海量文本数据训练,对于同义词、近义词的处理效果要好得多,因此精度会更高。像OpenAI、ChatGLM等提供的function call技术也是用来实现这一功能的。
记忆能力:大模型本身不具备记忆功能,但应用程序可以将历史对话信息存储起来。当进行对话时,这些存储的历史对话信息会与当前输入一起被送到大模型中,从而使大模型具备了多轮对话的能力。

调用外部工具能力:在刚才的推理能力例子中,大模型只是告诉我们这句话的意思是要调用查询天气的API。而实际调用查询天气API的动作则是由AI智能体来完成的。

图片
AI智能体的开发框架

LangChain:目前是最受欢迎的框架之一,功能强大且文档齐全。但其稳定性仍有待验证,最近才发布了0.11的正式版。此外,其封装可能过于抽象,目前还没有看到能够落地的实际应用,大部分都是用来写demo的。不过,对于学习来说,使用LangChain是一个非常不错的选择,尤其是其提供的langchain-template有很多参考模板。

图片

Semantic Kernel:微软开源的项目,设计理念较好且文档全面。但同样没有看到实际落地应用,稳定性方面也需要进一步测试。不过考虑到微软在开源方面的口碑一直不错,这个项目应该也是值得信赖的。

图片

自研:AI智能体最复杂的地方其实是业务逻辑处理部分,比如查询天气API的调用。与大模型交互的部分其实逻辑并不复杂。如果追求稳定性的话,完全可以考虑自研。

以上就是我对于AI智能体的一些理解和分享,希望对你有所帮助!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多