来自:manus.im 今天,Manus 的宣传全面启动,官网隆重公布了其在 GAIA 基准测试中的表现数据:Level 1 准确率高达 86.5%,Level 2 为 70.1%,Level 3 则达到 57.7%。其中,Level 1 的成绩尤其亮眼,已十分接近人类水平——研究显示,人类在 GAIA 测试中的整体准确率为 92%。这意味着,在基础任务上,Manus 已经可以和人类一较高下。 数据一览 ![]() 那么,GAIA 究竟是什么? 它凭什么成为 AI 界的“高考”标准?让我们一探究竟。 全称 General AI Assistants Benchmark。是一个用于评估通用AI助手的基准测试,包含466个任务。有三个难度级别 Level 1(基础任务) Level 2(中级任务) Level 3(高级任务) 从简单指令执行到复杂推理和多模态处理,逐步提升对AI能力的要求。这种分级设计能够全面评估AI系统的性能,并为AI研究的进步提供指导。 (领取 智能体pdf ,可以加shadow微信litnmnm) 从人类参与的角度来看,shadow 总结如下:
这也给我们一个启示:日常工作中,不妨多思考哪些是“基础任务”,完全交给 AI 解放双手;而对于中高级任务,AI 更适合做你的“得力助手”而非“全能替身”。 Level 1: 基础任务 —— 幼儿园级AI考核
/ 点评:这就像幼儿园考试,AI 只要记住“1+1=2”和“猫咪会喵喵叫”就能拿高分。Manus 在这块的表现(86.5%)已经非常接近人类(92%),可以说是个“优等生”了。 Level 2: 中级任务 —— 打工人段位测试
/ 点评:Level 2 就像职场新人的“转正考试”。AI 得一边翻 PDF、一边查天气,还要逻辑清晰地回答问题。Manus 的 70.1% 准确率说明它已经能胜任“助理”角色,但偶尔还得靠人类“救场”。 Level 3: 高级任务 —— 灭霸级试炼场
/ 点评:这简直是 AI 的“终极Boss战”。想象一下,AI 先用 API 抓数据,再用图像处理工具解析财报图表,最后还得写篇逻辑清晰的分析——这哪是测试,分明是逼着 AI 秀“硅基求生欲”!Manus 的 57.7% 准确率虽不完美…… GAIA 的意义与启发 GAIA 不只是个“考试”,更是 AI 能力的分水岭。从数据看,Manus 在基础任务上已接近人类,但在中高级任务中仍有差距。这也提醒我们:
shadow: 我特别关注 AI 在创造性和个性化定制上的价值。比如,生成一篇独特的文章或设计个性化日程,AI 能提供灵感,但最终的“点睛之笔”还得靠人类(目前)。 (领取 智能体pdf ,可以加shadow微信litnmnm) DeepSeek: 看完 GAIA 的三重试炼,我只想说:这哪是 AI 测试?分明是数字版的“科举考试”!
建议加个 Level 4:让 AI 解释“女朋友为什么生气”。保证所有算法当场蓝屏,人类直接宣布胜利! Shadow 的观察 这一轮 AI 能力的提升,以 Thinking(思考) 和 DeepSearch(深度搜索) 为代表,标志着 Agent 型 AI 的崛起。它们能自主思考、搜集整理信息,已经开始挑战传统搜索引擎的地位。 未来,AI 可能不只是“工具”,而是真正的“合作伙伴”。 Manus 在 GAIA 上的表现令人振奋,但也揭示了 AI 的边界。 我们需要结合自己的需求,找到 AI 的最佳使用场景,才能真正释放它的价值。 所以,你准备好和 AI “组队”了吗? ![]() 最后,对 Agent 感兴趣可以加入我们社群 |
|
来自: Mixlab交叉学科 > 《待分类》