分享

首个AI高考全卷评测结果发布,数学全部不及格,成最大难题!

 江海博览 2024-06-21 发布于浙江

首个 AI 高考全卷评测结果已经发布,Qwen2-72B、GPT-4o 及书生·浦语2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲。

大部分大模型在语文和英语科目上表现良好,但在数学科目上还有待加强。
图片
在语文和英语科目上,AI 展现出了较强语言能力,阿里巴巴开源的 Qwen2 系列 MoE 对话模型、GPT-4o 以及书生·浦语2.0 等模型在这两个科目上的平均得分均超过了 105 分,显示出 AI 在理解和生成语言方面的潜力。
  • Qwen2-72B 语文达到了 124分,英语 109 分。
  • GPT-4o 文 111.5 分,英语达到了 111.5 分。
图片图片
然而,当转向数学科目时,AI 的表现却不尽如人意,InternLM2-20B-WQX 在数学单科上排第一为 75 分,GPT-4o 与 Qwen2-72B 分别为 73 分和 70 分,所有参与评测的AI模型在数学上均未达到及格线。
图片
这一结果凸显了 AI 在复杂推理和计算能力上的局限性。
尽管 AI 在数学上的表现尚有提升空间,但这次评测无疑为AI的未来发展提供了宝贵的参考。
数学能力的提高不仅关系到AI在金融、工业等专业领域的应用,也是 AI 技术成熟度的重要标志。

语文:
  • 模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。

  • 大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。

  • 多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

数学:
  • 大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。

  • 大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

英语:
  • 英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。

  • 大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。


参考链接:https://www./news/5443927
公开评测细节可访问 :https://github.com/open-compass/GAOKAO-Eval

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多