分享

超越GPT

 James5291 2024-05-22 发布于北京

5月21日,国内权威大模型测评机构SuperCLUE正式发布商汤“日日新5.0”(SenseChat V5)中文基准测评结果,以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125。

值得注意的是,这是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。

SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,覆盖理科与文科两大能力,包括计算、逻辑推理、代码、长文本在内的基础十大任务。

在本次测评中,“日日新5.0”在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置。

在文科任务上,“日日新5.0”以82.20分取得国内外最高分,较GPT-4-Turbo-0125高4.40分,其中,知识百科(82.4)、长文本(79.2)、角色扮演(80.4)、语义理解(81.6)、生成创作(79.4)、传统安全(90.2)均刷新国内最好成绩;理科任务上以76.78分取得国内最好成绩,其中,计算(80.6)、逻辑推理(73.8)、工具使用(80.8)均刷新国内最好成绩。

“日日新5.0”采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。此次模型能力显著提升,其背后是训练数据的全面升级与训练方法的有效提升,以及商汤AI大装置SenseCore算力设施与算法设计的联合调优。

具体来看,在数据方面,“日日新5.0”采用了新一代数据生产管线,生产了10T tokens的高质量训练数据。同时,“日日新5.0”还大规模采用了思维型的合成数据(数千亿tokens量级),这对于模型在逻辑推理、数学和编程等方面的能力提升起到了关键作用。另外,“日日新5.0”采用了自研的多阶段训练链路,包括三阶段预训练、双阶段SFT和在线RLHF。通过在每个阶段设定更加清晰聚焦的目标,实现更敏捷的调优,也避免了不同目标之间的相互干扰。

作者:沈湫莎

文:沈湫莎图:受访者提供编辑:沈湫莎责任编辑:任荃

转载此文请注明出处。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多