分享

有了代码执行能力的Agent,You.com大模型秒变理科学霸,表现超越 GPT-4

 天承办公室 2023-09-22
机器之能报道
编辑:SIa
今天,自称「世界上第一个开放式搜索引擎」、建立基于生成 AI 搜索的时间比搜索巨头还早的 You.com, 正式推出 YouAgent:
它可以更可靠地回答涉及复杂数学运算、逻辑推理的 STEM 问题,有效克服了大模型重文轻理的不足。
你可以这么问它:利率 7.76% ,借入 301,000 美元,为期 30 年,每月还款额多少?
YouAgent 可以给出正确答案:2,158.48 美元。

我们也尝试问了两个类似问题。用户登录与否,回答的方式也不同。

这是对没有登录时提问的回答:

图片

登录后,我们问了类似问题,这是回答:

图片

者提问,已知地球上的一个箱子重 80 公斤,月球半径大约为地球半径的四分之一、质量为地球八十分之一,这个箱子在月球会有多重呢请从以下四个答案中选择正确的一个。

执行一系列代码计算后,它算到结果是 16 公斤,进而选择正确答案:C。

图片

作为对比,我们尝试询问谷歌 Bard 同一个问题,解题过程确实不同(当然,答案都是一样的):

YouAgent 赋予大模型理工科能力的办法正在于构建了一个可以访问计算环境的 AI Agent。

Agent 是机器学习社区的一个术语,指代不仅可以观察环境还能据此采取行动的 AI 。YouAgent 能在 Python 计算环境中写代码、运行代码,根据输出采取进一步行动。访问代码环境的能力,外加擅长多步推理,最终让大模型不再偏科。

市面上许多聊天机器人之所以经常为用户的 STEM 问题提供自信但错误的答案,主要原因就是没有这种代码执行能力,这就像不给计算器却要一个正常的人类回答 「 55 的 0.12 次方是多少?

图片YouAgent 正通过编写和执行代码来计算每月抵押贷款。

召唤出这种理工能力的办法也很简单:
用户键入  @agent ,并附上相关问题,就表明你想让大模型在计算环境中编写、执行 Python 代码,并解决疑问。

图片

根据官方提供的几个数据,可以看到在几个重要的 STEM 基准测试上,YouAgent 的表现与 GPT-4 差不多或者更好。

图片这些基准测试包括 MMLU 数据集(大学数学/高中数学/高中统计/高中物理类别))、ACT(数学部分) 和 GRE(数学) 部分。 

在 ACT 数学部分,YouAgent 的领先犹如 C- (69%) 和 A+ (96%) 学生之间的差异。

其他任务上的表现差距因任务性质不同而异:

比如,涉及计算量大的测试(例如,ACT、高中统计等)中,YouAgent  表现明显优于 GPT-4。而在更抽象、计算量较少的数学测试(例如,GRE、某些大学数学问题上)略好或与 GPT-4 差不多。

图片

You.com 创始人Richard Socher 曾是 Salesforce 首席科学家,在 ImageNet 创建上也发挥了重要作用。近期入选时代杂志全球百大 AI 人物。

You.com 是他继 MetaMind(被 Salesforce 收购)之后创立的第二家 AI 公司,对手是谷歌——「一个单一的、垄断的搜索引擎,它是封闭的,最终将人工智能武器化,以对抗用户,以服务于其真正的目的:广告。

Richard Socher 喜欢指出,他的公司在去年12月建立了基于生成式人工智能的搜索引擎,比其他搜索巨头发表声明早了几个月。

这种纯语言大模型能为许多不同类型的问题提供长篇的、有用的、对话式答案,但短板也很明显。除了严重偏科,还有众所周知的幻觉问题。

今年年初,You.com 通过提供多模态搜索服务,有效克服了这个问题。所谓多模态服务,就是除了纯文本回复,还能以绘图、图表以及交互式应用程序等方式回答问题。

与语言相比,有时代码、表格、图形、交互式元素才是最佳回应方式。这一点,在事实高度动态、但对信息精度要求又特别高的金融领域的应用,尤为典型。

如果你询问 You.com 「哪家公司拥有最多的CRM市场份额」,它会告诉你是 「 Salesforce 」。继续问,「 Saleforce 的股价是多少?」,它会返给你一张股票图表,而不是语言文本。

图片

除了偏科和幻觉,纯语言大模型还有一个明显的短板就是由于无法接受足够频繁的训练(数据集是有时间期限的),以至于无法与现实世界信息及时保持同步(比如今年即将揭晓的诺贝尔奖)。

为此,提供最准确的参考和引用是必要的。早在 2022年,You.com 就推出了 YouChat:

回答用户提问的同时,会附上指向提供信息的网站链接。与传统搜索引擎一样,你可以点开每个链接深入研究结果。

图片

图片

不过,YouAgent 距离在基准测试中达到 100% 准确性还有一段距离。另外,也存在不需要编码情况下也常常执行代码的问题。

接下来,You.com 希望可以支持更多的输入、输出的方式,比如文件上传、图像方式的输出、结合代码执行执行 Web 搜索等。

毫无疑问,对于一家想要打造可以帮助人们实际完成工作(而不是仅仅聊天)的公司来说,YouAgent 无疑是实现这一愿景的重要里程碑。

「我对此很兴奋,因为我认为这解决了实现 AGI 诸多必要挑战之一:既能以模糊/概率方式推理,又能以逻辑和数学方式推理的模型。虽然还需要更多的研究和开发,但让它成为现实是令人兴奋的。」  Richard Socher 在今天推文上写到。

图片

目前,任何登录 You.com 用户每天最多可以享受五次 YouAgent 查询(免费)。YouPro 订阅者每天额度最多 100 次。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多