长期以来,数据被视为大模型落地的门票,甚至是军备竞赛中的竞争护城河。很少有人思考数据“障碍”的本质和存在。 众所周知,在当今的互联网公开数据中,高质量的、中文的数据样本相对较少。一个现实的情况是,大模型的任何领域的问答生成表现都很好,但专业领域的表现却不佳,甚至产生模型“认真地说废话”的错觉。 因此,当国内大型模型厂商瞄准GPT-3.5的时候,差距大多只有1到2个月的时间,很快就会迎头赶上。任何公司都很难大幅拉开差距。同时,由于缺乏行业数据反馈,对于容错率较低的生产环节来说,大机型释放的产能也较为有限。 有人认为,数据壁垒将长期存在,而且随着大型模型规模迈向万亿规模,数据壁垒将不断扩大。 可见,当前互联网数据存在一定的被大公司隔离的现象。例如,在百度上搜索时,不会弹出抖音的视频推荐,而阿里则无法获取微信中的数据。切割后,送出的大模型效果会大大降低。这也意味着数据壁垒将不断增加大模型的围墙,使其成为仅限于大厂或拥有海量数据资源的玩家的垄断技术。 正因如此,拥有各自场景、数据和使用者的行业和企业客户成为大型模型公司相互竞争的资源。另一方面,也有人对数据壁垒持有相反的看法。 有业内人士表示,通过数据壁垒和数据垄断来打造企业自己的护城河并不存在,更多的是控股数据企业提升自身估值的一种说辞。现阶段,数据泄露、数据交易事件频发,灰色地带衍生的产业链成为直指数据壁垒的矛头。“一个关键问题是,你如何证明别人窃取了你的数据?我怎样才能防止有人窃取我的数据?” 不仅如此,数据信息也是存在于一定时间段内的数据。一方面,数据在短时间内的积累是否能够发生从数据到有效信息的质变尚不得而知;另一方面,一些行业数据会定期进行信息披露,也就是说,今天信息的隐私并不意味着未来数据信息的隐私。 总的来说,随着市场化的深入,大模型在商业中的运用,一个被寄予厚望的商业模式就是收集更多的数据,形成数据黑洞,模型也能变得更强。但同时,我们也必须看到数据壁垒对技术创新的局限性。 |
|