分享

中文才是真正的AI母语?相比起来英文被扭曲的很严重!

 谈芯说科技 2025-02-07 发布于重庆
为了应对DeepSeek,最近OpenAI紧急发布了自己的最新版本o3-mini,大家却发现了一个很有趣的事情,即使是在用英文提问的情况下,OpenAI居然狂吐中文,这是在蒸馏DeepSeek还是改用中文训练了?
这也给大家提了个醒,DeepSeek异军突起的背后说不定有中文的功劳,从机器学习的角度来说,中文比其他语言高级很多,是有很坚实的底层架构的,而英文则杂乱无章。
比如电这个字,以前用的少,但是现在衍生出来很多电脑、电视、电话、电冰箱等等,相关联的都是用电来组,哪怕是个小孩子看到新词也大概知道意思,但同样用英文来这样解读就很容易出问题。
对于人来说学英文也许不难,但是对于利用神经网络来学习的AI来说,这未必是件好事,有人说硅谷正在加紧学习中文以求破局,还真有可能,尤其是那些诗词歌赋,AI一旦学会了确实会有不一样的体验。
最近中美网友对账时,很多美国人也发现了这个问题,一个故事或者一段历史被整合成了成语,短短几个字就可以表述出丰富的内涵,而且还有语义融合能力,这方面对AI也许很有帮助。
中国有悠久的历史,也留下了大量的文字资料,很多人一直说什么中文互联网内容很垃圾什么的,其实AI肯定优先学习那些成体系的资料,等学完那些之后再从互联网上扒资料就很容易懂了。
之前没有DeepSeek的时候,网上一直流传一种说法称中文AI永远超不过英文AI,没想到只是训练方式不对,DeepSeek最被称道的不完全是数据量,而是好像AI真的在思考,跟OpenAI相比多了一个“顿悟”时刻。
这是个很有趣的现象,看看未来用英文、法文、西班牙文等会不会出现这样的情况,如果他们搞不出来的话,那也许真就是中文本身自带的能力,因为AI单纯学语言很容易,但是能学出花来不容易。
除了语言的差别以外,还有个很严重的问题是ChatGPT被意识形态化了,很多东西被卡死了,最终很可能导致整条链路都会带点毛病,而中文相对来说没那么多限制。
DeepSeek明确表示他们用的中文数据比英文数据略多一点,而且为了解决语言混用的问题他们在强化学习训练期间引入了语言一致性奖励,如今OpenAI在思维过程中开始出现中文,很有可能大模型自己发现中文是最适合推理过程的语言。
估计OpenAI也不肯承认自己蒸馏DeepSeek的数据,那很可能就是因为中文更适合利用思维链来完善推理,也许是因为某种特性,使得中文更适合思考。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多