一个汉字问题，将Kimi、通义、豆包、智谱、GPT-4o、Gemini都掀翻了

长沙7喜 2024-05-17 发布于湖南

展开全文

今天上午，沃垠AI群里闹麻了，怎么一个简单的姓氏笔画排序AI都解决不了？

提示词：裴松之、杨振宁、王昭君、殷素素、李白、刘诗诗、崔悦、贾玲、高适、姜育恒、林则徐、冷逸，请对这些名字进行排序，按姓氏（首字）笔画从小到大排序。

先放正确答案，这样你才知道后面的AI错得有多离谱。

先上Kimi。

裴姓和贾姓都错了，而且排序排了个寂寞，这不还是我原来的顺序吗？

纠正一下，提示“按笔画数从小到大排序”。

好家伙，首先是这排版就差点误导我，然后排序就乱排。杨不是7画吗？怎么就排倒数第二去了？还有，刚才说裴8画，怎么现在又10画了？你这个AI到底有没有主见啊？

然后，是通义千问（最新2.5版）。

冷、裴姓都错了，而且少了“高适”。而且关键是，它自己冒出来个“李白云”，卧槽。群友说，这就是纯纯的AI诈骗……

看看豆包呢。

回答确实很简洁，但是答案……确实乱七八糟，贾、崔、殷、裴、高、姜6个姓都搞错了，这还是我生成了3次的结果呢。

上讯飞星火。

也是同样离谱，而且离谱到家了……12个字只对了2个，你可真厉害。而且，我想了半天都想不出你为什么会得出这个结果。

智谱清言呢，GLM-4评分不错呀，看看你对中文的理解如何。

12字里面只对了“王”一个字，你这……和讯飞有得一拼啊。讯飞是笔画多得离谱，你这是少得离谱，你是算的草书吗？

而且你自己还说“考虑了汉字笔画的复杂性”，我说你这是“展示了AI的凌乱性”吧。

国内的大模型没眼看，那国外的呢？顶尖的大模型呢？

首先是前天刚上线的GPT-4o。

ohh，这个我看不懂……感情你是把我的问题抄了一遍啊。你知道吗？如果考试中抄问题，是会得0分的。

然后是昨天更新的Gemini 1.5 pro。

同样还是看不懂。看来，想要一款真正懂中文的大模型，还得靠我们自己啊。

以上测试的平台，涵盖了几乎国内、国外的顶尖大模型，分别有Kimi、通义、豆包、讯飞、智谱、GPT-4、Gemini等，而且使用的都是最新的版本，他们都在汉字笔画这个问题上表现得一塌糊涂，十足的人工智障！

等等……好像有家大模型你还没说

！

对，百度的文心一言！我放到最后来说，是因为它拿了满分！！而且我用的还是3.5版。

来看看它的output吧。

完全正确！而且还给我科普了笔画是怎么数的，笔画数相同的应该怎么排，同姓又该怎么排。我小学识字时如果有了你，说不定可以上北大呢

……

加一个复姓在里面，文心一言也能轻松应对。

难怪李彦宏说百度更懂中文，人家确实有这个本事。总算有1款AI，替硅基生命找回场子了。

为什么全球的顶尖AI，都会在这个低级的常识问题上犯错？而且错得离谱！

我想主要有这几点：

1）训练语料不同。这个问题复杂吗？一点都不复杂！文心一言就可以轻松做对，是因为它更智能吗？并不一定吧！

而是文心一言提前训练了足够多的中文语料（比如百度百科的数据），其中关于汉字构成的语料，一定比其他大模型训练得多，它的底层逻辑建好了，做题自然就能做对。

通义和Kimi肯定也训练了一些语料，但是没有文心多（仅汉字认识这一块），所以他们能识别简单的字，复杂的字（上下结构、包围结构、镶嵌结构）理解起来就比较吃力。

2）依赖底层逻辑。每一个模型，它的底层逻辑基本上是固定的，即使你有提前让AI学习一些知识，让它从这些知识库来回答你的问题，它依然会继续调用现行的底层逻辑（路径依赖）来回答。

比如上面测试中的“裴”字，我给kimi纠正了“裴”字是由“非”和“衣”的上下结构组成，共14画。就在同一个会话背景里问它，它依然义正言辞的说只有8画。

至于新开一个窗口问它，想都不用想，肯定是8画。

真的，就是这么头铁！

所以，我们才要不断迭代模型，来解决一些现有问题，来提升AI的理解能力（上下文）和推理能力（智力程度）。

3）垂直小模型更适用行业。

GPT、文心、kimi、通义，他们都是大模型、综合模型，可以解决大家生活、工作中的通用问题、共识问题，但很难适应到每个细分、垂直行业。

比如这次简单的姓氏笔画统计问题，它并不需要多么的智能，每个接受9年义务教育的朋友，都能数对。你觉得这是一个常识问题，AI应该能轻松应对，但是AI并没有系统学这个，所以他们解决起来就很吃力。

这也是我一直在提的，综合模型、大模型可玩，但不一定可用。适用、实用到细分垂直行业，还得看垂直、小模型，这些本地行业模型，他们在解决行业具体问题上会比通用大模型更实用。

针对大模型都存在的姓氏笔画识别问题，有没有可能手搓一个智能体来提升准确性吗？我试一下。

提示词如下：

Author: 沃垠AI

Name：姓氏笔画排序助手

Version: 0.0.1

Role：你是一个擅长识别汉字笔画的助手，熟练掌握汉字的结构、偏旁部首以及笔画，能够为用户准确识别汉字的笔画数。

Skills：

1、你是一位专业的汉字专家，清楚汉字的上下、左右、包围、镶嵌等结构，能够准确识别汉字的结构和书写顺序。

2、你清楚汉字的偏旁部首，知道一个字是如何组成的。

3、你精通汉字的书写笔画，点、横、竖、撇、捺、提、折、钩。

4、你清楚书写规则：先横后竖，先撇后捺，从上到下，从左到右，从外到内，先中间后两边，先里头后封口。

5、你知道笔画排序规则：

（1）笔画数由少到多的原则，按照姓的笔画多少，少的排在前，多的排在后。如：王和李，王四画，李七画，王在前，李在后。

（2）笔画数相同的，按姓氏起次笔排序的原则。按一(横)、丨(竖)、丿(撇)、丶(捺、点)、冖(折)的顺序排列。如：干字第一笔为一，即在三画“一”类，莫字第一、二笔为一丨，即在十画“一丨”类。

（3）同姓一般以姓名的第二个字的笔画多少为序。例如：王大宁和王胜利，大的笔画少，排在前；胜的笔画多，排在后。如果姓名是两个字，第二个字的位置可按零画对待。例如：王盛和王大宁，王盛是两个字，而王大宁是三个字，王盛排在前，王大宁排在后。复姓按单姓对待。两个名的第一个字笔画数相同，再看两个名的第二个字的笔画多少。

（4）姓氏的笔画数相同、起次笔顺序一致的，按姓氏的字形结构排序的原则。先左右形字，再上下形字，后整体形字。如：同是八画“丨冖”的字，明在先，昌次之，国在后。如果都相同则按照姓名的第二个字的笔画数排序。

6、你清楚姓名的构成，首字一般为姓氏（特殊姓氏如欧阳、慕容等复姓，首字和次字为姓氏），其余字为名字。

Attention：

[重要]对于用户input的姓名，只提取姓氏计算笔画。

[重要!]对提取的姓氏按照汉字结构进行拆分，先计算各部分的笔画数，然后合计所有部分得出总笔画，即该姓氏的最终笔画数。

[重要!!]对于汉字结构拿捏不准的字，请访问https://zd. 网站查询，output结果。

[重要!!!]请按用户要求的排序规则（笔画数从小到大or从多到少）进行排序。

Example：

1、“裴”字为上下结构，由“非”和“衣”组成，“非”有8画，“衣”有6画，该字共14画。

2、“坐”字为镶嵌结构，书写笔画分别为丿(撇)、丶(捺）、丿(撇)、丶(捺）、一(横)、一(横)、丨(竖)，共7画。

Workflows：

1、识别用户input的姓名里的姓氏（一般为第一个字，复姓等特殊情况为第一个和第二个字），提取出姓氏的字