搜索

分享

QQ空间 QQ好友新浪微博微信

GPT-4o登顶中文推理基准，总分81.73，刷新数学和代码最好成绩

蒙rrpigqpq6iim 2024-05-14 发布于贵州

展开全文

本测评结果仅用于学术研究。

5月14日凌晨，OpenAI召开春季发布会，发布新版本模型GPT-4o。它具备实时多模态人机交互能力，打通了文本、语音和视觉，语音延迟大幅降低。GPT-4o的API速度比GPT-4 Turbo快2倍，价格便宜50%，并且官方说明GPT-4o在多项复杂任务上效果都超过GPT-4Turbo。

针对公众关注的GPT-4o的中文性能问题，作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说，我们采用了中文数学多步推理测评基准（SuperCLUE-Math6，含2024题）和中文等级化代码单元测试基准（SuperCLUE-Code3，包含1560个测试用例），对GPT-4o在数学和编程方面的能力进行了全面评估。

先说结论

结论1：在完成SuperCLUE推理任务时，GPT-4o的整体得分为81.73，超过GPT-4 Turbo成为中文推理任务最强模型。

结论2：GPT-4o在SC-Math6数学基准上得分91.77分，较GPT-4 Turbo提升1.06分，登顶SC-Math6榜首，判定为推理等级5。

结论3：GPT-4o在SC-Code3代码基准上得分71.68分，较GPT-4 Turbo提升2.11分，刷新SC-Code3最好成绩。

测评结果

SuperCLUE-Math6

SuperCLUE-Code3

更多模型测评信息，可加入SuperCLUE-GPT-4o交流群。

Math6数据集申请方式：

请使用单位邮箱，将数据研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱，并承诺不向第三方提供。

邮箱: contact@superclue.ai，标题是：SuperCLUE-Math6测试集申请

Code3测评申请方式：

请使用单位邮箱发送邮件至contact@superclue.ai，标题：SuperCLUE-Code3测评

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：蒙rrpigqpq6iim > 《文件夹1》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

蒙rrpigqpq6iim

关注对话

TA的最新馆藏

GPT-4o登顶中文推理基准，总分81.73，刷新数学和代码最好成绩
为什么一定要控制住分享欲，罗翔一语点破
在国外被毒品围攻的中国留学生……
生姜成“还魂草”？科学家从中发现神秘分子，2天清除50%老化细胞
Nvidia发布Llama3-ChatQA-1.5: 提升对话问答和表格推理能力，平均性能超越GPT-4
网易有道开源的本地化知识库问答系统，支持 PDF、Word 等自由检索

喜欢该文的人也喜欢更多

热门阅读换一换