每天一个AI模型,让思维提前和未来同步。 今天要介绍得AI模型,是基于全栈国产化基础软硬件平台开发的多模态模型,换句话说就是国产化率100%。紫东·太初由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发,并且获得了2022年世界人工智能大会最高奖——“卓越人工智能引领奖”(SAIL,Superior AI Leader)。 全球首个三模态千亿参数大模型首先,什么是多模态? 简单的理解,平时我们人类有五感,视觉、听觉、嗅觉、味觉和触觉。传统的AI模型往往是单独演进的单模态技术模型,模型通用性较差,比如NLP类型的模型的只能处理文本数据,CNN只能处理图像数据,如果你跟NLP模型说,我想要一幅“戴着头盔的蒙娜丽莎画”,大概率是无法生成的。 而紫东·太初是支持文本、视觉、语音不同模态间的高效协同的,也就是紫东·太初模型可以从视频中“看出”内容,也能根据文本生成视觉内容。下面看一下中科院制作的介绍视频,大家就一下子明白什么是多模态了。 重播 播放 00:41/00:41正在直播00:00 进入全屏 50 画中画 紫东·太初,画面中是与我们见面的虚拟人小初,仅仅通过听工业生产中的特定音频(未来甚至可以结合看视频)就可以发现高频声音中,纱线断头的声音,“非常的了不起”。 想要看完整版,可以看以下链接: 多模态,让AI模型进化出真正和人脑类似的特性AI相关的新闻已经让我们见怪不怪了,尤其是在特定领域战胜人类以后,比如AlphaGo在围棋领域连续击败人类顶尖棋手。但是,距离真正的通用人工智能,也就是强人工智能,我们依然任重道远。 想要让AI进化出像人类一样思考、像人类一样拥有全面智能,可以通过学习从事多种类型工作的模型,目前的人工智能还处于初级阶段,更重要的是这些模型只是继承了人类的认知成果,比如识图,只是通过不断的训练,在有监督的情况下,实现特征识别。想要像人类一样,也许首先需要像人类一样形成不同感官之间的相互认知能力。
能够实现视觉、文本、语音三个模态间的高效协同,性能全球领先 开源,任何人都可以了解和学习紫东太初的研发机构,中科院自动化所,已经将模型的语言预训练模型、语音预训练模型和视觉预训练模型在Gitee上开源,可以直接搜索。而经过紫东太初的十亿、百亿、千亿级别的参数大模型也将在未来开源。 通过上面小初从音频中听出纱线断头的声音,就可以看出多模态模型在产业各界的潜力,比如在智能驾驶、工业质检、影视创作等领域,都具有广阔的落地潜力。 感兴趣的大家可以下载使用一下,比如其中提到的中文预训练语言模型下的文本续写功能和自动问答功能,就能帮助我们应付一些实际工作中的场景。 这也是AIGC未来的大趋势。 |
|