搜索

分享

QQ空间 QQ好友新浪微博微信

骄傲！清华XAgent完胜ChatGPT4.0！

江海博览 2023-11-21 发布于浙江

展开全文

清华开源通用智能体XAgent，登上GitHub热榜

各种任务都能做，让它使用python来分析给定的数据，分分钟搞定：

可以看出， XAgent在解答问题时，会进行逐段的解答，这就是专为它而设计的双循环机制。

在这样的设计下， XAgent具有极高的自治能力，在执行复杂的任务时“得心应手”，并且具有较高的安全性。

在所有的基准测试中， XAgent的性能都远远超过了 AutoGPT和GPT-4。

下面我们来看看详情。

各种任务都能做

通过向 XAgent上载数据包，由 XAgent对数据进行分析和产生报告， XAgent可以很快地把这个任务分成四个部分：数据理解， Python环境的验证，数据分析的编写，报告的编写。

最后绘制出来的图是这样的：

请 XAgent给朋友们推荐几家不错的餐馆，但是这一次，他们没有详细说明。当 XAgent发现信息不够充分的时候，它立即启动了“求助于人”的功能，让使用者可以选择自己的喜好，比如自己的喜好、预算、口味等等。

这样一来， XAgent就可以根据自己的喜好，为每个餐厅制定一张个性化的推荐列表。

这样，用户就可以通过增加新的工具，来提升自己的实力，甚至创造出一个新的自己。

全面优于AutoGPT

在此基础上，开发人员还对基于GPT-4开发的 XAgent做了一系列的评测，主要是检验 XAgent的推理、计划以及使用外部工具的能力。

主要测试了以下几个方面：

1、在 FreshQA和 HotpotQA上对网页的自动问答功能进行了测试；

2、在 MBPP平台上进行 Python编程能力的测试；

3、运用 MATH软件进行学生的数学推理能力测试；

4、测试交互式代码的交互功能；

5、在 ALF世界里，测试身体推理的文字游戏。

以下是与原版GPT-4的比较，XAgent全面优于GPT-4：

考虑到缺少适合 AI Agent的高质量标杆，开发人员还设计了50条人工指令，将其划分为“检索报告”、“编程与开发”、“数据分析”、“数学辅助”五大类。

在此基础上，我们邀请一些专家对 Xagent和 AutoGPT的输出进行评价。

结果XAgent全面取胜，不仅在传统的AI基准测试中表现出色，而且还在处理复杂指令方面表现出卓越的适应性、效率和精度。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：江海博览 > 《科技》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

江海博览

关注对话

TA的最新馆藏

江苏“十三太保”中，最让人羡慕的城市，应该是盐城吧？#宝藏盐城dou起来 #盐城旅游 #盐城市博物馆
[转] 如何把支付宝的钱转入微信？
[转] 今天才知道，手机计算器上还隐藏了两个功能，太实用了，不懂亏大了
美国德国都没做到，仅有中国成功了！全球领先！磁共振技术突破！
各个汽车品牌优缺点顺口溜，终于有人整理出来了，收藏起来看看吧
别用XShell了，这款SSH工具绝对惊艳，还支持网页版...

喜欢该文的人也喜欢更多

热门阅读换一换