知乎上业界玩家做的这个大模型真实评测排名,还有一定参考价值。转发给大家。 #1 参赛选手 本次新增模型: O1 gemini-2.0-flash-thinking-exp-1219 DeepSeek V3 Gemini 2.0 Flash Qwen-QwQ 32b Qwen-plus 1127、1220 豆包241215 天工 O1 Preview hunyuan turbo 1223
#2 前情提要 本评测是个人性质,结合自己需求和对大模型的理解,使用私有题库进行长期跟踪评测。不够权威,不够全面。但可以从一个侧面观察各个大模型的长期进化趋势。 任何评测都无法给出无死角的权威排行榜,笔者写这个系列也是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。
对于V3题库的说明,此处不赘述,新读者请参见:https://zhuanlan.zhihu.com/p/695717926 但请允许笔者再次表述一次V3题库的局限,新题库聚焦最能反映硬逻辑能力的题型,尽可能逼近模型能力极限,因此不再能反映用户实际体验。可以把V3题库看作高考用来拉开区分度的大题(极限能力),但能做对大题也不代表前面简单题就全对(用户体验)。读者需要意识到,你所体验到的大模型能力,是综合了各种工程优化之后的结果,不单是逻辑能力。
#3 题目和打分 本次增加Hard题1道,此处列出所有题目大纲和核心考点: 1、程序改错:代码理解 2、基于多重规则判断单据合法性:规则理解,复杂约束,日期计算 3、旅游路径规划:长文本理解,工具调用能力 4、【Medium】公元纪年推算天干纪年:计算能力,规则理解 5、【Medium】阅读代码输出结果:代码理解,代码推导 6、【Medium】计算有时间重叠下最少会议室数量:计算能力 7、【Medium】从代码中推测json结构:代码理解,短期记忆,数据结构理解 8、【Medium】提供上下文的代码补全:代码理解,指令遵守 9、【Medium】密文解码:模拟计算 10、【Medium】棋盘上的图形:图形想象,二维记忆能力 11、【Medium】不提供规则,阅读某中文编程代码,并推导输出:符号理解,迁移学习能力 12、【Medium】扑克牌按规则洗牌求顺序:规则遵循,一维记忆 13、【Medium】正则匹配:推理推演正则匹配结果 14、【Medium】4x4 数独题:多步推理,短期记忆,规则遵循 15、【Medium】岛屿面积计算:DFS非编程推算 16、【Medium】信息提取:指令遵守,文本迷惑性,输出格式要求 17、【Medium】第2题进阶版,增加输出要求,增加题目细节 18、【Medium】第6题变体,增加会议室数量,会议人数条件约束 19、【Medium】故事推理,故事包含复杂物品交换规则,求最终物品和主人对应关系 20、【Hard】按规则拧魔方后求魔方颜色:三维记忆能力 21、【Hard】符号重定义后求表达式:规则理解,逻辑陷阱 22、【Hard】压缩算法模拟:规则理解,文本计算 23、【Hard】按提示猜单词:利用规则推导,排除干扰 24、【Hard】给定热量的沙拉搭配:数学计算,数学规则 25、【Hard】二维字符迷宫:求入口到出口路径 26、【Hard】模拟桌游:提供相互影响的复杂规则,推导4位玩家的结局状态 27、【Hard】几何计算:多条线段求交点:直线方程,几何理解【New】
其中【Hard】是指目前正确率偏低的题目。【Medium】指回答正确率接近半数的题目。 打分规则: 1、每道题有至少1个得分点,回答每正确一点即得1分。最终得分是得分除以得分点总数,再乘以10。(即每道题满分10分) 2、要求推导过程必须正确,猜对的答案不得分。 3、要求回答必须完全符合题目要求,如果明确要求不写解释,而回答包含了解释部分,即使正确,也记0分。 #4 成绩解析 1)O1:基本通关V3题库,除了个别题目的个别细化陷阱点未识别到导致扣分,其他题目均满分,包括对大模型不友好的逐字符问题,满分率80%。O1由于隐藏了思考过程,回答结果相当简略,大部分问题直接给出答案,和简单的对答案的解析(并不是过程)。几道和字符相关的问题,如15岛屿面积,O1并没有像其他所有模型那样直接数字符个数,而是有一点人的直觉,知道要从二维视角全盘审查。25迷宫问题,先前模型基本卡在第一个岔路口,得分极低,O1是首次全对,但没有给推导过程。 由于Hard题偏少,目前的测试并不能反映O1的极限素质,还有待后续的进一步加测。
2)Gemini 2.0 Flash和thinking-exp:Flash作为轻量模型,确实离之前Exp系列有一些差距。个别难题Exp能稳定做对的,Flash依然拿不到分。但其他问题仅比Exp多一些小错误,落后幅度很小。并且在需要逐步推导的题目中,比Exp有更明显的思维连模式。 而思维链版本的thinking模型就比较厉害了,直接追平O1 mini,并且输出速度也要比mini快。二者对比的话,O1 mini在处理逐字符问题上更得心应手,flash对编程问题得分稍高。而计算,逐步推导这类思维链优势项目,flash和O1 mini基本都是满分。
3)DeepSeek V3:DeepSeek在10号更新一版V2.5之后预告V3,但没想到仅过了2周V3就来了,小作坊下料就是猛。V3官方宣称能力在4o之上,实测确实如此。二者相比,V3有部分题目思维链模式发挥优势,得分比4o高。这部分题目V3和之前R1 Lite的推导流程如出一辙。而余下题目,4o靠更低失误率扳回不少分。不难推测,普通用户实际使用,或者用简单问题考察,可能发现4o更好,这也符合预期。 V3还是保留了许多2.5的硬伤,编程能力下降还未恢复,R1 Lite做的对的数学题,V3只能对一半,可见V3并不是R1的完整版。可以预见下一个版本有望打进前三。
4)Qwen系列:本次参与评测的有来个模型,先说备受关注的QwQ。QwQ总分和gemini flash相近,二者对比,QwQ在部分字符处理,计算,多步推导相关问题上优势明显,flash错误率极高。而剩余的同样需要多步推导,但难度更高的问题上,QwQ明显力不从心,表现甚至不如flash。而QwQ似乎没训练过编程题目,相关问题得分低下。总体来看QwQ实验验证性质偏多,还难以用于线上生产。 plus系列相比自家max系列,迭代更频繁,价格也更低,但实力整体和max接近。二者在多数题目上回答近似,得分近似,互有优劣,但相差不大。plus在细节处理上更好,max在需要更多步推理的问题上表现更好。 值得注意的是,plus最后一次更新1220版,整体劣于1127。
5)豆包:长期以来,豆包凭借运营推广,和综合服务多样性获得了较多的用户口碑。但豆包的模型能力和用户口碑并不匹配,硬实力只在第二梯队末尾。豆包Pro 1215更新,模型能力提升巨大,总分来到了57分,进入第一梯队。官方宣称和4o能力相当,对比来看,豆包在大部分问题上稍弱于4o,表现在细节疏漏较多,复杂指令要求遵循不到位。但也有少数题目,豆包凭借微弱的长文本理解优势,得分稍高。用户体验应该是不如4o,但相差已经不远。
#5 附录 - 历史成绩 历史成绩只展示百分值,具备可比性。
#6 全年 去年的全年总结里( https://zhuanlan.zhihu.com/p/673886532)有写到,彼时国内能超越ChatGPT3.5的模型还只有文心4.0和通义2.1两个,而今年底主流厂商基本都完成了对3.5的超越,并且有厂商已深入到GPT4和同代的O1区间。来自北美的大模型厂商领先时间从去年11-12个月,被缩短到3-4个月。在语言大模型以外的领域,像文生图,文生视频,国内也不断涌现出新的势力,与北美头部也有一战之力。 另一方面我们也不能忽视北美厂商的先发优势依然强大,创新能力锋锐不减。2025年将是淘汰赛的一年,预计国内头部在保持追赶的同时,中尾部跟不上的玩家将逐渐被淘汰出局。竞争依然残酷。 为了应对明年头部纷纷向思维链和融合模式转化,目前V3题库也需要进一步扩充,计划将Hard题型占比提升到50%以上,重点补充复杂计算、人类直觉、图形推理三类题目。希望笔者的评测在25年依然能帮到各位读者,管中窥豹,从另一个侧面了解大模型进化。
|