自然新闻文章
新闻ˌ消息
2024年2月1日
这种人工智能通过婴儿的眼睛看世界来学习语言
一个利用单个婴儿的视频经历自学识别物体的神经网络可能会为人类如何学习提供新的见解。
伊丽莎白·吉布尼 一个18个月大的婴儿戴着头戴式摄像机。
该人工智能使用萨姆佩戴的头盔摄像头的视频和音频进行学习——萨姆年龄为18个月。致谢:韦庆丰
一个人工智能(AI)模型通过研究一个婴儿生活中很小一部分的头部摄像头记录,学会了识别“婴儿床”和“球”等词。
该研究的合著者、纽约大学人工智能研究员Wai Keen Vong表示,研究结果表明人工智能可以帮助我们理解人类是如何学习的。Vong说,这一点以前一直不清楚,因为ChatGPT等其他语言学习模型是在数十亿个数据点上学习的,这无法与婴儿的真实世界体验相提并论。“我们出生时没有互联网。”
作者希望这项发表在2月1日《科学》杂志上的研究能够为关于儿童如何学习语言的长期争论提供依据。人工智能只能通过在一起看到的图像和单词之间建立联系来学习;它没有任何其他关于语言的先验知识。Vong说,这挑战了一些认知科学理论,即为了赋予单词意义,婴儿需要一些关于语言如何工作的先天知识。
加州大学默塞德分校的认知科学家希瑟·博尔特菲尔德说,这项研究是理解儿童早期语言习得的“一种令人着迷的方法”。
婴儿视角
冯和他的同事们使用了一个名叫萨姆的男婴戴的头盔上安装的摄像机拍摄的61个小时的记录,从婴儿的角度收集经验。萨姆住在澳大利亚阿德莱德附近,从六个月大到大约两年的时间里,他每周两次佩戴相机约一小时(约占他醒着时间的1%)。
研究人员训练他们的神经网络——一种受大脑结构启发的人工智能——基于视频帧和山姆说话的话,从录音中转录。该模型暴露在250,000个单词和相应的图像中,这些图像是在玩耍、阅读和吃饭等活动中捕获的。该模型使用了一种称为对比学习的技术来学习哪些图像和文本趋于一致,哪些不一致,以建立可用于预测某些单词(如“球”和“碗”)所指图像的信息。
为了测试人工智能,研究人员要求模型将一个单词与四个候选图像之一进行匹配,这一测试也用于评估儿童的语言能力。它在62%的情况下成功地对物体进行了分类——比随机预期的25%好得多,并与在该数据集之外的4亿图像-文本对上训练的类似人工智能模型相当。
对于一些单词,如“苹果”和“狗”,该模型能够正确识别以前从未见过的例子——这是人类通常相对容易发现的。平均而言,它在35%的情况下成功做到了这一点。当物体在训练数据中频繁出现时,人工智能更善于识别脱离上下文的物体。冯说,它还最擅长识别外观变化不大的物体。可以指代各种不同物品的单词——比如“玩具”——更难学。关于学习的课程
博尔特菲尔德说,这项研究对单个儿童数据的依赖可能会对其研究结果的普遍性提出质疑,因为儿童的经历和环境差异很大。她补充说,但这项练习揭示出,在婴儿的早期阶段,仅仅通过在不同的感官来源之间建立联系就可以学到很多东西。这些发现也对科学家提出了挑战——比如美国语言学家诺姆·乔姆斯基——他们声称语言太复杂,信息输入太稀疏,无法通过一般的学习过程习得语言。“这些是我见过的最有力的数据之一,表明这种'特殊’机制是不必要的,”博尔特菲尔德说。
现实世界的语言学习比人工智能经历的要丰富和多样得多。研究人员表示,由于人工智能仅限于对静止图像和书面文本进行训练,它无法体验真实婴儿生活中固有的互动。Vong说,人工智能很难学会“手”这个词,这个词通常是在婴儿早期学会的。“婴儿有自己的手,他们有很多使用它们的经验。这绝对是我们模式中缺失的一个组成部分。”
加拿大蒙特利尔大学的机器学习科学家阿尼鲁德·戈亚尔说:“进一步改进模型以使其更符合人类学习的复杂性的潜力是巨大的,这为认知科学的进步提供了令人兴奋的途径。”
https:///10.1038/d41586-024-00288-1
|