分享

GPT-4o登顶中文推理基准,总分81.73,刷新数学和代码最好成绩

 蒙rrpigqpq6iim 2024-05-14 发布于贵州

本测评结果仅用于学术研究。

5月14日凌晨,OpenAI召开春季发布会,发布新版本模型GPT-4o。它具备实时多模态人机交互能力,打通了文本、语音和视觉,语音延迟大幅降低GPT-4o的API速度比GPT-4 Turbo快2倍,价格便宜50%,并且官方说明GPT-4o在多项复杂任务上效果都超过GPT-4Turbo。

图片

针对公众关注的GPT-4o的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例)对GPT-4o在数学和编程方面的能力进行了全面评估。

先说结论

结论1:在完成SuperCLUE推理任务时,GPT-4o的整体得分为81.73,超过GPT-4 Turbo成为中文推理任务最强模型。

结论2:GPT-4oSC-Math6数学基准上得分91.77分,较GPT-4 Turbo提升1.06分,登顶SC-Math6榜首,判定为推理等级5。

结论3:GPT-4o在SC-Code3代码基准上得分71.68分,GPT-4 Turbo提升2.11分,刷新SC-Code3最好成绩。

测评结果
图片
SuperCLUE-Math6
图片

图片

SuperCLUE-Code3
图片

图片

更多模型测评信息,可加入SuperCLUE-GPT-4o交流群。

Math6数据集申请方式:

请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。

邮箱: contact@superclue.ai,标题是:SuperCLUE-Math6测试集申请

Code3测评申请方式:

请使用单位邮箱发送邮件至contact@superclue.ai,标题:SuperCLUE-Code3测评

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多