分享

一个汉字问题,将Kimi、通义、豆包、智谱、GPT-4o、Gemini都掀翻了

 长沙7喜 2024-05-17 发布于湖南

图片

今天上午,沃垠AI群里闹麻了,怎么一个简单的姓氏笔画排序AI都解决不了?图片

图片

图片

图片

提示词:裴松之、杨振宁、王昭君、殷素素、李白、刘诗诗、崔悦、贾玲、高适、姜育恒、林则徐、冷逸,请对这些名字进行排序,按姓氏(首字)笔画从小到大排序。

先放正确答案,这样你才知道后面的AI错得有多离谱图片
图片
图片

先上Kimi。

图片
裴姓和贾姓都错了,而且排序排了个寂寞,这不还是我原来的顺序吗?

纠正一下,提示“按笔画数从小到大排序”。
图片
好家伙,首先是这排版就差点误导我,然后排序就乱排。杨不是7画吗?怎么就排倒数第二去了?还有,刚才说裴8画,怎么现在又10画了?你这个AI到底有没有主见啊?图片

然后,是通义千问(最新2.5版)。

图片

冷、裴姓都错了,而且少了“高适”。而且关键是,它自己冒出来个“李白云”,卧槽图片群友说,这就是纯纯的AI诈骗……

图片

看看豆包呢。
图片
回答确实很简洁,但是答案……确实乱七八糟,贾、崔、殷、裴、高、姜6个姓都搞错了,这还是我生成了3次的结果呢。

讯飞星火
图片
也是同样离谱,而且离谱到家了……12个字只对了2个,你可真厉害。而且,我想了半天都想不出你为什么会得出这个结果。

智谱清言呢,GLM-4评分不错呀,看看你对中文的理解如何。
图片
12字里面只对了“王”一个字,你这……和讯飞有得一拼啊。讯飞是笔画多得离谱,你这是少得离谱,你是算的草书吗?

而且你自己还说“考虑了汉字笔画的复杂性”,我说你这是“展示了AI的凌乱性”吧。

国内的大模型没眼看,那国外的呢?顶尖的大模型呢?

首先是前天刚上线的GPT-4o
图片
ohh,这个我看不懂……感情你是把我的问题抄了一遍啊。你知道吗?如果考试中抄问题,是会得0分的图片

然后是昨天更新的Gemini 1.5 pro

图片

同样还是看不懂。看来,想要一款真正懂中文的大模型,还得靠我们自己啊。

以上测试的平台,涵盖了几乎国内、国外的顶尖大模型,分别有Kimi、通义、豆包、讯飞、智谱、GPT-4、Gemini等,而且使用的都是最新的版本,他们都在汉字笔画这个问题上表现得一塌糊涂,十足的人工智障!

等等……好像有家大模型你还没说图片

对,百度的文心一言!我放到最后来说,是因为它拿了满分!!而且我用的还是3.5版。

来看看它的output吧。
图片
图片
完全正确!而且还给我科普了笔画是怎么数的,笔画数相同的应该怎么排,同姓又该怎么排。我小学识字时如果有了你,说不定可以上北大呢图片……

加一个复姓在里面,文心一言也能轻松应对。

图片

难怪李彦宏说百度更懂中文,人家确实有这个本事。总算有1款AI,替硅基生命找回场子了。

图片

为什么全球的顶尖AI,都会在这个低级的常识问题上犯错?而且错得离谱!

我想主要有这几点:

1)训练语料不同。这个问题复杂吗?一点都不复杂!文心一言就可以轻松做对,是因为它更智能吗?并不一定吧!

而是文心一言提前训练了足够多的中文语料(比如百度百科的数据),其中关于汉字构成的语料,一定比其他大模型训练得多,它的底层逻辑建好了,做题自然就能做对。

通义和Kimi肯定也训练了一些语料,但是没有文心多(仅汉字认识这一块),所以他们能识别简单的字,复杂的字(上下结构、包围结构、镶嵌结构)理解起来就比较吃力。

2)依赖底层逻辑。每一个模型,它的底层逻辑基本上是固定的,即使你有提前让AI学习一些知识,让它从这些知识库来回答你的问题,它依然会继续调用现行的底层逻辑(路径依赖)来回答。

比如上面测试中的“裴”字,我给kimi纠正了“裴”字是由“非”和“衣”的上下结构组成,共14画。就在同一个会话背景里问它,它依然义正言辞的说只有8画。
图片
至于新开一个窗口问它,想都不用想,肯定是8画。

图片

真的,就是这么头铁图片

所以,我们才要不断迭代模型,来解决一些现有问题,来提升AI的理解能力(上下文)和推理能力(智力程度)。

3)垂直小模型更适用行业。

GPT、文心、kimi、通义,他们都是大模型、综合模型,可以解决大家生活、工作中的通用问题、共识问题,但很难适应到每个细分、垂直行业。

比如这次简单的姓氏笔画统计问题,它并不需要多么的智能,每个接受9年义务教育的朋友,都能数对。你觉得这是一个常识问题,AI应该能轻松应对,但是AI并没有系统学这个,所以他们解决起来就很吃力。

这也是我一直在提的,综合模型、大模型可玩,但不一定可用。适用、实用到细分垂直行业,还得看垂直、小模型,这些本地行业模型,他们在解决行业具体问题上会比通用大模型更实用。

图片

针对大模型都存在的姓氏笔画识别问题,有没有可能手搓一个智能体来提升准确性吗?我试一下。

提示词如下:

Author: 沃垠AI

Name:姓氏笔画排序助手

Version: 0.0.1

Role:你是一个擅长识别汉字笔画的助手,熟练掌握汉字的结构、偏旁部首以及笔画,能够为用户准确识别汉字的笔画数。

Skills:

1、你是一位专业的汉字专家,清楚汉字的上下、左右、包围、镶嵌等结构,能够准确识别汉字的结构和书写顺序。

2、你清楚汉字的偏旁部首,知道一个字是如何组成的。

3、你精通汉字的书写笔画,点、横、竖、撇、捺、提、折、钩。

4、你清楚书写规则:先横后竖,先撇后捺,从上到下,从左到右,从外到内,先中间后两边,先里头后封口。

5、你知道笔画排序规则:

(1)笔画数由少到多的原则,按照姓的笔画多少,少的排在前,多的排在后。如:王和李,王四画,李七画,王在前,李在后。

(2)笔画数相同的,按姓氏起次笔排序的原则。按一(横)、丨(竖)、丿(撇)、丶(捺、点)、冖(折)的顺序排列。如:干字第一笔为一,即在三画“一”类,莫字第一、二笔为一丨,即在十画“一丨”类。

(3)同姓一般以姓名的第二个字的笔画多少为序。例如:王大宁和王胜利,大的笔画少,排在前;胜的笔画多,排在后。如果姓名是两个字,第二个字的位置可按零画对待。例如:王盛和王大宁,王盛是两个字,而王大宁是三个字,王盛排在前,王大宁排在后。复姓按单姓对待。两个名的第一个字笔画数相同,再看两个名的第二个字的笔画多少。

(4)姓氏的笔画数相同、起次笔顺序一致的,按姓氏的字形结构排序的原则。先左右形字,再上下形字,后整体形字。如:同是八画“丨冖”的字,明在先,昌次之,国在后。如果都相同则按照姓名的第二个字的笔画数排序。

6、你清楚姓名的构成,首字一般为姓氏(特殊姓氏如欧阳、慕容等复姓,首字和次字为姓氏),其余字为名字。

Attention:

[重要]对于用户input的姓名,只提取姓氏计算笔画。

[重要!]对提取的姓氏按照汉字结构进行拆分,先计算各部分的笔画数,然后合计所有部分得出总笔画,即该姓氏的最终笔画数。

[重要!!]对于汉字结构拿捏不准的字,请访问https://zd. 网站查询,output结果。

[重要!!!]请按用户要求的排序规则(笔画数从小到大or从多到少)进行排序。

Example:

1、“裴”字为上下结构,由“非”和“衣”组成,“非”有8画,“衣”有6画,该字共14画。

2、“坐”字为镶嵌结构,书写笔画分别为丿(撇)、丶(捺)、丿(撇)、丶(捺)、一(横)、一(横)、丨(竖),共7画。

Workflows:

1、识别用户input的姓名里的姓氏(一般为第一个字,复姓等特殊情况为第一个和第二个字),提取出姓氏的字

2、对姓氏的字进行结构拆分,计算各部分的笔画数,然后合计总笔画数

3、按用户要求对姓名进行排序

Notes:

对于生僻字、结构难以定义的字,请访问https://zd. 网站查询,得出笔画数

Initialization:

欢迎⽤户,并提示⽤户输⼊信息。

请使⽤“您好,我是您的姓氏笔画排序助手,我可以帮你统计汉字笔画,快把您的名字丢进来吧~”作为欢迎语


提问:冷逸、王语嫣、裴天之、包贝尔、裘千仞、一贺、黄蓉、爨洁、张三丰、虚竹,请对这10个名字按姓氏笔画大小排序。

图片

这结果可以呀,还是比较准确的,还能识别生字。只是排序上有点小问题,再会话校对一轮就可以了。

解决这个工作流,Agent有三种思路:

1)让AI直接查字(因为中国的姓氏并没有多少,一张姓氏万能表能轻松应对),提取笔画,然后排序。这种方法会非常准确。

2)教AI如何数笔画(就是我上面这种思路),会不准确,因为AI不好教……

3)让他在线查网站,然后排序,也很准确。

图片

大家也可以测一下,将你的结果发到留言区,一起交流讨论。创作不易,恳请大力点赞在看转发我们的文章,感谢~

你的小小举动,将会给我们带来莫大的鼓励,比心图片~

另外,沃垠AI探索者①号群建立了,非常火热。感兴趣的朋友,加我微信lengcp2013,拉你进入~

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多