AI模型 | 紫东·太初，多模态让AI理解能力更接近人类

文明世界拼图 2023-01-25 发布于重庆

展开全文

每天一个AI模型，让思维提前和未来同步。

今天要介绍得AI模型，是基于全栈国产化基础软硬件平台开发的多模态模型，换句话说就是国产化率100%。紫东·太初由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发，并且获得了2022年世界人工智能大会最高奖——“卓越人工智能引领奖”(SAIL，Superior AI Leader)。

全球首个三模态千亿参数大模型

首先，什么是多模态？

简单的理解，平时我们人类有五感，视觉、听觉、嗅觉、味觉和触觉。传统的AI模型往往是单独演进的单模态技术模型，模型通用性较差，比如NLP类型的模型的只能处理文本数据，CNN只能处理图像数据，如果你跟NLP模型说，我想要一幅“戴着头盔的蒙娜丽莎画”，大概率是无法生成的。

而紫东·太初是支持文本、视觉、语音不同模态间的高效协同的，也就是紫东·太初模型可以从视频中“看出”内容，也能根据文本生成视觉内容。下面看一下中科院制作的介绍视频，大家就一下子明白什么是多模态了。

重播

播放

00:41/00:41正在直播

00:00

进入全屏

画中画

紫东·太初，画面中是与我们见面的虚拟人小初，仅仅通过听工业生产中的特定音频（未来甚至可以结合看视频）就可以发现高频声音中，纱线断头的声音，“非常的了不起”。

想要看完整版，可以看以下链接：

多模态，让AI模型进化出真正和人脑类似的特性

AI相关的新闻已经让我们见怪不怪了，尤其是在特定领域战胜人类以后，比如AlphaGo在围棋领域连续击败人类顶尖棋手。但是，距离真正的通用人工智能，也就是强人工智能，我们依然任重道远。

想要让AI进化出像人类一样思考、像人类一样拥有全面智能，可以通过学习从事多种类型工作的模型，目前的人工智能还处于初级阶段，更重要的是这些模型只是继承了人类的认知成果，比如识图，只是通过不断的训练，在有监督的情况下，实现特征识别。想要像人类一样，也许首先需要像人类一样形成不同感官之间的相互认知能力。

“能否在同一个维度、同一个空间，面对不同的场景提供同一个多模态大模型，摆脱'一专一能’，是实现人工智能通用化的基础。
“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习，突破了当前AI技术局限，具备部分类脑特性，从“一专一能”迈向“多专多能”。
——王金桥中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥