多模态数字人驱动技术及应用

明灭的烟头 2023-01-04 发布于四川

展开全文

导读：近年来，区块链、大数据、人工智能等技术加速创新，日益融入经济社会发展各领域全过程，元宇宙相关领域迎来井喷式发展，“数字人”作为元宇宙的关键载体，但依靠传统的动捕驱动模式无法得到普及，如何实时驱动数字人的动作和表情，并尽可能地减少动捕依赖，一直以来都是各大科技公司竞相角逐的着力点。本次中科深智联合创始人兼任 CTO 宋健为大家带来数字人技术专题分享，分享的主题是：“多模态数字人驱动”，阐述以多模态输入为主的实时的虚拟人动作和表情的驱动和生成技术，让数字人除了“好看皮囊”外，也可以拥有“有趣灵魂”，最后带来中科深智关于元宇宙及应用布局的思考。

本专题介绍围绕下面四个部分展开：

数字人驱动技术演进介绍
Motionverse 动作生成中台
融入多场景的多模态驱动应用
中科深智元宇宙技术布局

分享嘉宾｜宋健中科深智 CTO

编辑整理｜吴靖楠厦门国际银行

出品社区｜DataFun

数字人驱动技术演进介绍

数字人，也称虚拟人，是指通过建模、动作捕捉、AI 等科技手段，制作出具有人或类人的外貌特征和行为模式并通过显示设备呈现出来的虚拟形象。数字人从 20 世纪 80 年代开始，经历了萌芽、探索、初级及成长各个发展阶段，技术路线日趋成熟，正逐步走入大众视野。

商汤智能产业研究院针对数字人的实现难易程度，并根据数字人在拟人化程度、自动化水平、应用场景三个方面的表现水平，将数字人分为 L1～L5 五个等级：

L1 级：数字人形象写实，以 CG 人工建模制作为主，主要用于传统动画制作及平面展示，应用场景非常局限。
L2 级：数字人实现了写实形象的生成展现和动作表情交互，但主要依赖外部动作捕捉设备等完成中之人驱动，实现口型、表情、肢体动作等信息采集，应用场景有所拓展，但依然局限于传统的视频录播和影像制作上。
L3 级：在 L2 写实形象和动作表情交互的基础上，能够通过大数据和算法来驱动数字人完成口型、表情、肢体动作的的驱动和表达，应用场景开始往部分实时驱动交互的动态场景上延伸。
L4 级：这个阶段的数字人以写实形象和动作表情实时生成及驱动为核心，也拥有了一定程度的理解智能能力，但依然“真假可辨”，主要以被动感知和人工指令输入驱动为主，主要应用于垂直领域，比如在规范化的客服或虚拟人直播领域，能够替代人工完成一些程序性工作。
L5 级：完美形态下的数字人，既拥有“好看的皮囊”，形象精美高度写实，表情动作驱动流畅自然，还拥有了“有趣的灵魂”，能够完全理解用户意图并主动表达，不断适应环境变化，做到主动感知及驱动，完成自我学习和成长。

数字人从 L1 到 L5，技术深度由浅入深。当前中科深智持续深耕 L4 级智能交互数字人，并逐步向 L5 级数字人演进，下面重点分享下中科深智基于自研 Motionverse 动作生成中台的实时动作及表情的驱动和生成技术。

Motionverse 动作生成中台

宋健老师认为，动作和表情驱动是虚拟人技术的关键，而依赖单一技术难以满足所有应用场景。中科深智自研的 Motionverse 动作生成引擎，该动作生成引擎由多模态动作指令收集、数字人驱动智能模型构建及影像生成、实时动画影像输出展示三大部分组成，如下图所示。

1. Motionverse 工作流

首先，基于 Motionverse 多模态动作生成驱动引擎，融合了 XR 和 AI技术，可根据不同场景，支持语言、文本、传感器多种驱动方式，实现多模态动作指令输入。

在完成动作驱动输入数据的基础上，经过 RTC Streaming 实时传输或数据封装，Motionverse 中台能够将这些接收到的输入指令及数据，通过 AI 算法进行模型训练，解析并生成对应的动作表情数据，形成动作表情数字资产，进一步运用其不断积累的数字资产和模型组合驱动数字人，实时生成千人千面的动作和表情，赋予数字人更强的表现力和生命力。最后在 HIVE 云端完成二维、三维图像及全息模型的影像渲染及生成，使得数字人更逼真写实。

2. 大规模数据集及动作视觉语言模型

多模态风格化动作数据解析及生成是 Motionverse 中台的核心技术模块，而数字人的动作解析及生成离不开大规模数据集训练以及动作视觉语言模型构建。通过专业的动捕采集设备完成大规模的动作表情数据采集，在规范化的数据预处理及标记后，不断地训练、模拟动作视觉语言模型，提升模型的准确度及效率，依靠模型推理，再根据不同的应用场景要求进行相应的后处理，最终输出到相应的工具平台或融入到具体的业务流程中。中科深智当前累计完成约 150 小时的动作视频采集，视频帧数以达到千万级别，以此支撑表现内容丰富的实时动作表情输出。

Motionverse 中台支持传感器、文本、文本、视频、控制器、传感器、脚本等不同的动作驱动及输入方式。这里的脚本输入即包括传统的动画模版、动画播放等预设脚本指令，也支持 AI 脚本指令输入。除了如下图示的多种驱动方式外，Motionverse 中台还支持数字人的风格化设定；风格化指的是同一个人在不同场景下，其语音、语气、动作表情等存在表现形式上的不同，如日常办公、对客服务场合下可能有表达规范上的要求，而在家庭亲子互动场景中则比较亲密自然。

融入多场景的多模态驱动应用

1. 从稠密到稀疏的传感器数字人驱动

在传统的数字人驱动模式下，需要通过在中之人不同的关节增加更密集的惯性、光学等动捕设备传感器来获取真人的动作数据，以不断提升动作还原精度，但也带来了算力成本及复杂度要求增加。Motionverse 多模态动作生成驱动引擎能够实现只需少量的动捕设备辅助，其余依靠 AI 智能算法模型的解析及推理便可生成实时动作数据。

多模态动作生成驱动引擎，在通过充分的数据集训练后，可以生成特定场合下的数字人动作，甚至手的动作都可以通过手臂的姿态来进行高度还原。如下图的抖音直播画面中，两个数字人与《霍元甲》歌曲节奏高度合拍，“高举”直播道具完成了双人齐舞，该场景只通过 3 个 Tracker 传感器（头部 1 个+双手 2 个）采集中之人的头部及手臂动作数据，其余动作如手握道具、步伐走动则完全依靠模型自主生成。

2. 多种情绪的语音驱动微表情

区别于卡通风格的夸张、简单的面部表情，Motionverse 多模态驱动引擎通过不断收集多种情绪下的面部表情数据，辅以高精度面部骨骼绑定和大规模的数据集训练，实现高兴、悲伤、生气、惊讶、中立、恐惧、厌恶等 9 种情绪下的丰富的面部微表情。作为超写实数字人驱动技术的核心，Motionverse 驱动的多种情绪下的表情和动作，使得超写实数字人更加逼真。

3. 客服类数字人动作生成

Motionverse 可以直接通过语义和声音驱动数字人，完成特定场景下的手势动作自动生成，并与声音把持协调。如下举例客服类数字人动作生成场景，在 42 秒的客服播报中，画面中的虚拟主播手口并用地给大家推介葡萄酒，其动作完全依靠语义和声音生成，手势自然流畅不重复。

中科深智元宇宙技术布局

1. 开放不同层次的 SDK 接入元宇宙

Motionverse 通过开放 SDK，让动作表情数据进入到不同工作流、工具平台以及元宇宙中，完成跨系统、跨生态的连接。共有四个层次的 SDK 接入方式：

数据：Motionverse 通过提供数字人驱动数据给动画、影视、游戏制作公司等客户，这些公司一般都具备一定的数据处理及模型渲染能力，可以将数据重定向到设定的角色上再作处理，或直接用来做直播渲染。
数据+资产：如品牌公司、运营机构等本身数据处理能力储备不足，Motionverse 则可以通过数据和数字人资产的 SDK 输出模式，直接提供给客户。
数据+资产+云渲染：通过 RTC Streaming 方式提供的 SDK 接口，为企业级客户如银行、保险等金融机构提供数据、数字人资产以及云渲染，能够便捷地集成到企业工作流当中。
数据+资产+云渲染+工作流：通过定制化模式为行业提供通用工作流服务。

2. 完成多人表情动作交互的场景延伸

在中科深智看来，单个数字人的播报及动作表情生成有其局限性，相比之下，两人或多人的表情动作实时交互更具现实意义。在多人互动的情景下，人与人之间的动作表情具备关联性，通过 Speaker 的动作表情，可以推断出 Listener 的动作表情。中科深智将于近期推出多人互动下的动作表情交互的 SDK 接口，不断丰富实时互动的交互场景，提升服务能力。