分享

大模型还在狂欢,但“数据质量”已经塌了?

 菩提流云 2025-05-16

如果说AI大模型是数字时代的“吞金兽”,那数据质量大概就是它的“胃药”。

近来,大模型及相关技术应用仍在不断爆发。

除了眼花缭乱的技术迭代与应用不断出现,一个最显著的变化是,AI工具已经渗透进我们的日常工作与生活。

以deepseek为例,如果有心调试,他几乎已经可以替代所有文字类工作,不管是专业文章撰写还是策略分析,其成果展现正不断逼近人工成品。

但随着大模型愈发精进、AI工具使用率越来越高,一个明显的问题也在显现:参数越多,模型似乎越容易“消化不良”。轻则胡言乱语,比如把秦始皇写成特斯拉创始人,重则酿成医疗误诊、金融风控翻车等惨案。

大模型还在狂欢,但“数据质量”已经塌了?

原因指向大模型训练数据的质量。一个核心问题是,如果大模型训练集里充斥着垃圾数据,那么再多参数训练出的AI又会有多聪明呢?

从“百模大战”到应用内卷,这场看似光鲜的AI狂欢背后,数据质量正从“燃料库”沦为“拖油瓶”。而那些被网友吐槽“人工智障”的AI产品,也成了这场危机的活体标本。

数据质量的慢性病:大模型的“虚胖”危机

对于大模型而言,参数越多、智商越低的灵魂拷问愈发显眼。

作为佐证,《自然》杂志前不久的一篇论文无情戳破了AI圈的“皇帝新衣”:GPT-5参数量翻倍后,错误答案数量居然不降反增,法律咨询场景的错误率比GPT-4高了3.2%。

更可怕的是,这些错误答案的“自信度”还提升了17%——相当于一个满嘴跑火车的朋友,越错越理直气壮。

所谓一本正经的胡说八道,正是很多人在使用过程中最直接的体验。

斯坦福的《AI指数报告》同样对看起来越来越聪明的AI进行了补刀:2020-2024年,全球大模型参数量年均增长240%,但基准测试准确率提升不足15%。

简单来说,AI圈正在上演一场“虚胖”大戏。模型越练越大,脑子却越练越迷糊。

那么,为何大模型参数越多越傻?问题出在数据质量这个“食堂后厨”上。

如果说低质数据是大模型训练所摄入的毒素的话,那么这些数据毒素已形成“四大天王”。

其一,是噪声数据。

某大模型28%的训练数据来自社交媒体和论坛,其中充斥着拼错单词、逻辑混乱的帖子(比如“我昨天吃了狗,味道不错”),导致模型生成的内容语法正确但事实荒谬。

其二,是偏见数据。

据统计,维基百科和新闻语料里的性别、种族偏见,让某招聘AI对女性简历推荐率低了12%。为此,有网友建议其改名叫“AI直男生成器”。

其三,是过期数据。GPT-5的训练数据截止到2023年12月,导致它认为“2024年美国总统是拜登”情况的出现。

其四,是对抗数据。

黑客偷偷往训练集里塞了0.03%的篡改词条,成功让AI相信“猫是外星间谍”。该案例已经上升到生成式AI系统安全性的严重程度。

正是这些“毒素”,才让大模型集体患上“幻觉症”和“健忘症”,堪称AI界的“老年痴呆”。

一如网友吐槽的那样:“我用某国产AI查文献,它居然把'量子力学’解释成'量子奶茶学’,还附赠了一份珍珠奶茶配方!”,“让AI写情书,开头深情款款,结尾突然推荐痔疮药——这数据喂的是《知音》合订本吧?”

数据炼金术:从“脏数据”到“黄金数据”的奇幻漂流

为了拯救吃坏肚子的大模型,科技巨头们纷纷化身“数据厨师”,启动数据“精炼计划”。

IBM用金融知识图谱筛选数据,把噪声比例压到5%以下。

DeepMind请500名医学专家标注30万份病历,打造“AI医科教材”。

英伟达用Omniverse合成暴雨夜间的行人数据,弥补现实采集的盲区,解决了没人愿意为了AI训练真去暴雨天碰瓷的痛点。

当然,还有AI质检员的出现。微软Azure引入多模态质检系统,专门揪出“图文不符”的广告(比如配图是汉堡,文案却在卖拖鞋)。

面对全行业性的数据质量问题,全球也在掀起数据合作热潮。

其中,有15家药企共享脱敏临床试验数据、打造出的“医药AI数据池”行业联盟;有个人数据捐赠:欧盟推出数据捐赠平台,用户可自主贡献数据并追踪用途(比如你的外卖订单可能正在训练下一代点餐AI)。

还有政府助攻:美国强制开放教育、医疗等公共数据;中国七大城市建数据标注基地,培育超300名专业“数据贴标签师”。

未来的数据战场:谁掌握了“黄金数据”,谁就掌握了AI的命脉

需要指出,面对数据质量对于AI大模型训练的影响,数据质量其实存在一个“不可能三角”,即规模、质量、时效性难以兼得。

于是,如何最大化兼顾这三个维度,决定了谁能在AI大模型之争中占得先机。

一些聪明的人类已经想到办法。

例如,通过精标数据(质量优先)+合成数据(场景覆盖)+实时数据(时效保障)的混合数据搭配,来让AI显得更聪明。

还有在医疗领域,用加密和差分隐私技术,让医院之间共享数据时不用互相“扒病历本”。

以及从AI原生架构着手,从数据采集环节嵌入质检模块,实现“边吃边消化,边生产边排毒”。

特别是,相比于全知全能型AI,垂直领域的通用模型逐渐“内卷”,导致垂类数据成为新战场。

在医疗AI层面,谷歌用200万病理切片训练出胰腺癌检测模型,准确率99.3%,秒杀95%的放射科医生。

在金融风控领域,蚂蚁集团用央行认证数据打造模型,坏账率压到0.8%,还能追溯每笔决策,堪称“AI会计界的福尔摩斯”。

在自动驾驶领域,特斯拉靠100万辆车的“影子模式”收集极端场景数据,让系统干预率从每千英里1.2次降到0.3次。

或许,AI的未来会是数据炼金术士的天下。当算力增长逼近物理极限,数据质量终将成为AI战争的决胜点。

这决定了,未来的AI领军者,可能不是参数最多的“暴食者”,而是最懂数据烹饪的“米其林大厨”。毕竟,喂给AI的如果是“垃圾食品”,再强的算力也只能造出“人工智障”。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多