重磅！中科院推出全球首个千亿参数多模态大模型——紫东太初

深圳东方红 2024-09-20

展开全文

“紫东太初”大模型

中科院推出全球首个千亿

参数多模态大模型

#导语#

中科院自动化研究所研究员张家俊介绍了“紫东太初”大模型，这是全球首个千亿参数多模态大模型，它支持多任务自监督学习，能够实现模态理解与模态生成统一建模。该模型能够执行跨模态检索与生成实例，如以文搜图、以图生音、以音生图等2。

中科院对于“紫东太初”看法

东太初是中国科学院自动化研究所研发的跨模态通用人工智能平台，它是全球首个图文音（视觉-文本-语音）三模态预训练模型（OPT-Omni-Perception pre-Trainer），具备跨模态理解与跨模态生成能力。该平台以多模态大模型为核心，基于全栈国产化基础软硬件平台昇腾AI，并依托武汉人工智能计算中心算力支持。紫东太初大模型由武汉人工智能研究院、中科院自动化所与华为联合研发，实现了图像、文本、语音三个模态数据之间的“统一表示”。

紫东太初的命名寓意着紫气东来、混沌初开，象征着人工智能从专用迈向通用，从感知智能迈向认知智能的过程。此外，紫东太初还具有全模态理解能力、生成能力和关联能力，不仅能读懂文字、图像和音频，还能理解视频、3D点云等。它通过有效编码语音、文本和目标区域之间的时空关系，首次实现了'语音生成视频'的功能。

紫东太初2.0是在原有基础上的升级版，它以自动化所自研算法为核心，以昇腾AI硬件及昇思MindSpore AI框架为基础，进一步探索通用人工智能的可能性。这一版本不仅保持了对三模态的理解和生成能力，还扩展到了全模态，包括视频、3D点云等，为认知智能时代的加速到来提供了强有力的支持。

紫东太初及其2.0版本代表了中国在通用人工智能领域的重要进展，通过其跨模态的理解与生成能力，以及全模态的扩展，为人工智能的发展开辟了新的道路。

紫东太初的具体技术架构和算法原理是什么？

紫东太初的具体技术架构和算法原理主要包括以下几个方面：

全模态开放式接入：紫东太初2.0在技术架构上实现了结构化和非结构化数据的全模态开放式接入，这意味着它能够处理包括语音、图像、文本、视频、传感信号、3D点云等多种类型的数据。

多模态分组认知编解码技术：该技术能够对信息进行充分理解和灵活生成。这是通过将不同模态（如视觉、文本、语音）映射到统一的语义空间中实现的，然后利用多头自注意力机制来学习模态之间的关系。

认知增强多模态关联技术：这项技术能够融合多个任务，提高模型的认知能力。它允许模型在处理多种类型的数据时，能够更好地理解和关联这些数据之间的关系。

全栈国产化支持：紫东太初支持华为昇腾NPU、Nvidia GPU、Arm64架构的硬件资源，并兼容MindSpore、Pytorch等计算框架，实现了全栈国产化，确保了模型的可控性和可信度。

紫东太初的技术架构和算法原理主要围绕全模态数据处理、多模态认知编解码以及认知增强的多模态关联等方面展开，同时通过全栈国产化的支持，确保了模型的应用灵活性和安全性。

紫东太初在实际应用中

的案例或成效展示有哪些？

紫东太初在实际应用中的案例或成效展示主要包括以下几个方面：

在纺织工业生产线中，紫东太初通过融合多模态信息，利用语音识别判断断纬和断经，通过视觉识别判断布匹的缺陷，展示了其强大的综合研判能力和广阔的应用前景。

紫东太初还被应用于三维虚拟人“小初”的创建，实现了不同模态间的互相转换和生成，包括视频生成、视频描述、图像生成、智能问答、语音识别等多个功能。

在数字物联时代，紫东太初2.0能够理解三维场景、信号等重要信息，完成音乐、图片和视频等数据之间的跨模态对齐，处理音乐视频分析、三维导航等多模态关联应用需求，并可实现音乐、视频等多模态内容的理解和生成。

“嫦娥工程”案例展示了紫东太初在骨科手术领域的应用，凭借其卓越的技术实力和产业应用价值，成功入选《2024中国大模型先锋案例TOP30》榜单。

在智能座舱领域，基于紫东太初多模态大模型，长安汽车引入了元宇宙的概念，创造了YYDS虚拟数字人，展示了其在智能汽车领域的应用潜力。

紫东太初支持以文搜图、以图生音、以音生图等跨模态检索与生成实例，如输入一个真实图像，就能生成个性化的3D形象，展示了其在内容创造和交互方面的强大能力。

这些案例和成效展示了紫东太初在多个领域的广泛应用和显著成效，从工业生产到虚拟人物创建，再到医疗手术和智能汽车，紫东太初展现了其作为全模态大模型的强大潜力和广泛应用前景。

紫东太初如何解决跨模态理解

与生成的挑战，特别是在视频

、3D点云等复杂数据处理上

的策略是什么？

紫东太初在解决跨模态理解与生成的挑战，特别是在视频、3D点云等复杂数据处理上的策略主要包括以下几点：

全模态理解能力：紫东太初2.0具备全模态理解能力，能够理解和处理包括文本、图片、音频、视频、3D点云和传感信号等多种模态的数据。这种全模态的理解能力使得模型能够更好地处理和分析复杂的数据类型。

跨模态对齐：紫东太初2.0完成了音乐、图片和视频等数据之间的跨模态对齐，这意味着它能够在不同模态之间建立联系，从而更好地理解和生成跨模态内容。

多任务统一生成式学习框架：紫东太初2.0首次提出了全模态多任务统一生成式学习框架，通过全模态分组对齐、分组解码和联合解码的学习方式，形成了全模态逻辑推理链。这种学习框架有助于提高模型在处理复杂数据时的效率和准确性。

跨模态迁移：紫东太初2.0还强调了跨模态迁移的重要性，这有利于知识获取和产生更多的创新应用。通过跨模态迁移，模型能够在不同模态之间进行有效的知识转移和应用拓展。

结构化和非结构化数据的处理：在技术架构上，紫东太初2.0实现了对结构化和非结构化数据的处理能力，这包括视频、传感信号、3D点云等更多模态的数据。这种能力使得模型能够更灵活地应对各种数据格式和类型，从而提高其在复杂数据处理上的性能。

紫东太初通过全模态理解能力、跨模态对齐、多任务统一生成式学习框架、跨模态迁移以及对结构化和非结构化数据的处理等策略，有效解决了跨模态理解与生成的挑战，尤其是在视频、3D点云等复杂数据处理上的表现。

紫东太初对于中国通用人工智能发展的影响及其在全球人工智能领域的竞争地位是怎样的？

紫东太初对于中国通用人工智能发展的影响显著，其在全球人工智能领域的竞争地位也逐渐显现。首先，紫东太初2.0的发布标志着中国在探索通用人工智能方面又迈出了重要一步。该模型以全模态大模型为基础，旨在实现可自主进化的通用人工智能，并探索与类脑智能、博弈智能等技术路径的相互融合。这表明紫东太初不仅关注于技术层面的创新，还致力于推动这些技术在更多领域的应用，为中国的数字经济快速发展贡献力量。

紫东太初的研发和应用，依托于国产化基础软硬件平台昇腾AI和武汉人工智能计算中心的算力支持，展现了中国在通用人工智能领域自主创新的能力。这种基于国产化软硬件平台的全栈国产化通用人工智能底座的打造，不仅有助于减少对外部技术的依赖，还能促进国内相关产业链的发展，提升中国在全球人工智能领域的竞争力。

此外，紫东太初的开发和应用也反映了中国对通用人工智能发展的重视。随着通用人工智能加速走进现实，它将成为新一轮科技革命和产业变革的重要驱动力量。中国已逐步建立起涵盖理论方法和软硬件技术的体系化研发能力，紫东太初等项目的发展正是这一战略部署的具体体现。