首个AI高考全卷评测结果发布，数学全部不及格，成最大难题！

江海博览 2024-06-21 发布于浙江

展开全文

首个 AI 高考全卷评测结果已经发布，Qwen2-72B、GPT-4o 及书生·浦语2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲。

大部分大模型在语文和英语科目上表现良好，但在数学科目上还有待加强。

在语文和英语科目上，AI 展现出了较强语言能力，阿里巴巴开源的 Qwen2 系列 MoE 对话模型、GPT-4o 以及书生·浦语2.0 等模型在这两个科目上的平均得分均超过了 105 分，显示出 AI 在理解和生成语言方面的潜力。

然而，当转向数学科目时，AI 的表现却不尽如人意，InternLM2-20B-WQX 在数学单科上排第一为 75 分，GPT-4o 与 Qwen2-72B 分别为 73 分和 70 分，所有参与评测的AI模型在数学上均未达到及格线。

这一结果凸显了 AI 在复杂推理和计算能力上的局限性。

尽管 AI 在数学上的表现尚有提升空间，但这次评测无疑为AI的未来发展提供了宝贵的参考。

数学能力的提高不仅关系到AI在金融、工业等专业领域的应用，也是 AI 技术成熟度的重要标志。

语文：

数学：

英语：

参考链接：https://www./news/5443927

公开评测细节可访问 :https://github.com/open-compass/GAOKAO-Eval

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：江海博览 > 《科技》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

江海博览

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换