基于多模态大模型的人机对话

明灭的烟头 2023-01-04 发布于四川

展开全文

今天的介绍会围绕下面三点展开：

虚拟数字人背景介绍
数字人发展与相关方法
应用案例

分享嘉宾｜王金桥研究员博导

编辑整理｜吴哲 58同城

出品社区｜DataFun

虚拟数字人背景介绍

数字人在 IP 影响力和粉丝经济方向逐渐扩大影响，例如虚实结合的虚拟演员、虚拟主持人、虚拟主播、虚拟客服、虚拟导游和专家讲解等。随着人工智能、虚拟人以及人机对话技术的发展，数字人应用市场飞速发展，智能化水平不断提高，拟人化以及沉浸式的体验也越来越好。数字人作为元宇宙的基础设施，已经成为我们的数字分身，扮演着情感陪护和超级助手的角色。

目前数字人的发展也存在很多问题，其中最重要的就是高成本的建模，例如数十万至百万的制作成本，大部分企业无法承担，另外生产周期长达数月，导致整个生产流程无法连续稳定输出。

第二个问题是数字人的驱动，目前数字人的驱动能力，主要分为两种：一种是静态超现实数字人偶像，使用2d数字人偶像完成图文媒体宣传等工作；另外一种是三维数字人，目前普遍存在形象不逼真、动作比较生硬，整体体验不够好。其中最关键的地方在于数字人的对话能力上，我们可以采用单相机动作捕捉、弹幕、结构光或者多相机动捕的方式，将人的动作映射到数字人本身，但最重要的数字人对话和理解能力依旧没能很好地解决，当前的AI智能大部分属于闲聊对话模式，很多回答都是答非所问，这也是人工智能目前普遍面临的理解能力的难题。

第三个问题是虚拟人场景受限，大部分虚拟人制作比较粗糙，只能用于简单的客服场景，商业价值不高；同时动漫形象应用领域也比较受限，无法比拟真人的效果。

以上是数字人在建模驱动应用中的一些典型问题。

数字人发展与相关方法

目前数字人建模与驱动主流方法是结合 NeRF+GAN 的生成和渲染技术。主要是采用可视化编码自动实现 encoder，经过生成技术以及 NeRF 渲染能力，可以快速低成本生成数字人，从而实现数字人自动化。

数字人技术从传统的 CG 模式到 AIGC 数字自动化阶段，在价值格局和运营上都有着巨大的提升。目前 AIGC 数字人建模时间周期可降至三周，成本可降至 1 万到 10 万以内，而且真人效果可以由多人效果生成单个写实类、超真实感、卡通类等多种风格，根据底库灵活配置，实现批量化 IP 生产。数字人应用范围越来越广泛，其价值格局需要进一步重构。

从运营角度讲，AIGC 可以更加自由地设计，任何人都可通过多种风格实现自由设计与制造，而且是永久专属，可以实现多个替身，整体的丰富度与传统主播相比更有表现力。在生产力方面，可通过多个分身、多种真人的特效，适用于不同的场景不同的应用，可展示出智能沉浸式的体验。整体运营成本也变得更加可控。

AIGC 首先是采用 CG 创造等建模技术实现数字人编辑与创造，其次采用数字人驱动。数字人驱动分为中职人驱动与无中职人驱动两种模式，捕获动作表情和姿态，采用文本或者是语音的方式进行驱动。多模态已成为数字人技术的核心支撑力量，多模态协同是其中重要的一部分。

传统的 CG 模式是通过扫描建模，然后进行纹理渲染，整体的制作周期较长，源之于传统的图形学技术。而自动化生成需要计算机视觉、图形学以及重建技术。

AIGC 创造是通过随机种子与生成对抗网络结合，自动生成图像。主要是利用相关描述内容，自动生成海量没有版权的虚拟人脸，这种方式非常高效，但存在可解释性不强、与输入数据强相关等问题，例如训练数据如果均是外国人，那么生成的人脸中外国人的特征将会非常明显。

通过海量的多模态数据信息，可实现不同风格的迁移。输入一张照片，经过神经网络编码以及额外的属性信息辅助，生成初步的结果，利用风格化的扩散性模型，得到最终塑造图像。比如塑造后的迪士尼风格图像，可以根据选项自动进行创造，另外也可以通过控制卡通化风格的强弱以及手动调整，从而生成超真实的图像。通过海量数据自动生成真实以及各种真实的变通，可以使数字人的创建和创造变得非常简单，也使得成本有效降低。目前二维效果较好，三维技术还需要一些人工辅助来完成。

数字人驱动分为中职人驱动和无中职人的驱动。中职人驱动主要是采用生成技术等实现人脸替换。无中职人驱动则是根据输入图像，实现照片中的人物自动化场景。不同的应用场景与选择，可以得到不同的效果。最基础的如face good，其整体的面部系统成本较高，使用起来相对比较麻烦。

如图所示的中职人驱动则是通过以神经网络作为特征提取的双流框架，实现对人物动态属性与身份属性的提取，通过反编码的方式生成新的人脸，利用嘴唇表情等驱动虚拟人自动进行广播等操作。

无中职人驱动也称 Talking-head，通过三维重建系统，估计图像中人物姿态和身份，另外通过选择说话人的风格，结合输入文本采用 Transformer 模型驱动嘴型，并采用神经网络实现渲染，最终输出一个基于文字和语音驱动的虚拟人。例如全姿态三维人脸替换，主要是通过多个参数控制姿态、表情、形状，结合身份和表情实现深度特征纹理映射，以此来保持原始人复杂的动作和表情的连续性，实现单输入图像大角度人脸的渲染和重建。如下图可以看到，使用语音来驱动整个画面，通过截取辽宁卫视的图片，经过输入语音或者文字，使其自动驱动，实现人物的自动播报。

另外也可以采用视频驱动，如图通过输入视频，将一个人的动作映射到另一个人身上，基于模板可以扩展至多种形象。

数字人除了驱动之外，另一个重要的部分是人机对话，现在也逐渐由单模态迈向多模态，主要是能够利用海量对话数据进行自监督学习，提升下游任务的性能。目前很多研究致力于如何在人机对话过程中，将多模态的数据如图像、文本、语音、视频等数据进行跨模态的统一表征，从而更接近于人类的理解方式。听觉+语言融合的方式，可以实现多模态数据在语言维度的统一，从而更好地辅助机器像人一样去进行学习与对话。

多模态的预训练大模型是我们自动化所的一个重要方向。我们基于国产化算力，通过海量数据，经过 3~4 个月训练得到了一个超级规模的大模型——“紫东太初”多模态大模型，参数量 1,000 亿左右，通过大模型实现图像、文本、语音的统一表征和生成，实现虚拟场景中人物形象的生成，以及整个对话中的问答检索、生成，通过语义理解自动实现配图，完全打破了对话过程中只用语言进行交流的模式，形成了基于多模态更拟人化的表达方式。

应用案例

采用训练的大模型，我们可以实现在对话的过程中进行检索。比如带着粉色领结的猫，会自动对句子中的关键词与图像信息进行关联，实现词条级别和图像区域级别的有效对应。另外还可以实现以图搜图、以图搜文，或是依据输入的图像生成各种描述。在对话过程中可以依据对话内容分别生成对应的写实类的图像，实现了精准的表征，打破了多模态之间的壁垒。

除此之外，我们的模型还可以生成有想象力的图像，比如一只泰迪熊在游自由泳，其实我们都知道泰迪熊是不会游自游泳的，但从结果可以看到一个泰迪熊，它有了像人一样游自游泳的泳姿，这就是 AI 的一些创造力和想象力。另外还有图像局部编辑和轮廓补全等，满足我们在各种场景下人机交互的多样性。

基于多模态对话的小初是我们的展示应用，它具有类人的理解对话、创作和生成能力。我们还整合了非常多的典型应用，比如服务于长安汽车车载终端，可以输入一张照片，自动生成超真实、超写实和卡通类的一些形象。可以看到如图生成的样例，每个人只要拍张照片，上传至智能座舱，智能座舱就会自动生成形象，通过口令即可驱动虚拟人执行具体的动作，如打开空调等。

这是我们与杭州市旅游局合作的项目——杭小亿，主要是结合多模态的对话数字人与南宋御街知识图谱相结合，实现精准导游介绍。

我们还与千博一起合作了全球首个多模态手语虚拟人，基于国产化硬件，通过图像、文本、语音、表情驱动，和手语融合到一起，实现了手语虚拟人。

问答环节

Q1：可以实时生成手语吗？

A1：可以的。手语具有相应的词库，一般情况下，就是每一个词对应一个标准的词库，每个词库动作怎么比划是提前建模好的，针对手语有自动切条方式，并不能对所有的手语进行表示，需要把每句话拆成词，每个词都用手语，手语再用动作串联起来，可以实现实时。

Q2：手语教考一体机，主要的功能有哪些，是一个什么样的硬件设备？

A2：手语教考一体机相当于存放在教室里的一台一体化的设备，当我打手语的时候，设备上会自动生成一个图片，配一个图片或配一个视频，比如我打一个“瀑布”，它就会自动配一个瀑布的照片，这个照片是生成的，所以在教学的过程中可以更好地理解老师打的手语是什么。简单来说，手语教考一体机主要功能就是把手语转化成文字、语音，同时配上图片；它还能给聋哑学校开展测试，以此来评估手语正确与否。。

Q3：小初的 IP 设计中，您这边出于哪些考虑，然后设计了这样的一个非常可爱的 IP 呢？

A3：我们的小初定位是一个穿古代汉服的十几岁少女，象征着我们整个的人工智能，穿汉服代表是我们中国做出来的。第二个就是说小初的名字，我们的大模型叫“紫东太初”，“紫东”是我们自动化所的谐音，“太初”就代表着整个的人工智能，从单任务转为多任务，相当于步入大参数大模型大算力的一个时代，是多模态的一个时代。目前的虚拟人更像人一样，但是它的智力又不是特别高，所以就选了十几岁的一个少女形象。

今天的分享就到这里，谢谢大家。

｜分享嘉宾｜

王金桥｜研究员博导

王金桥中国科学院自动化研究所紫东太初大模型中心，副主任，研究员，博士生导师，中国科学院大学人工智能学院岗位教授，武汉人工智能研究院院长。

现任中国技术创业协会技术创新工作委员会副理事长，获北京市高聚领军人才、广州市创新团队领军人才、山东省泰山领军人才等称号，主要从事多模态大模型、自监督学习、视频分析与检索、大规模目标识别、目标检测与跟踪、图像分类与识别等方面的研究。共发表包括IEEE T-PAMI、TIP、TNNLS、ICCV、CVPR、NeurIPS、ECCV等国际权威和顶级会议论文300余篇，国际杂志50余篇，国际会议300余篇。完成国家标准提案3项，发明专利36项，10项国际视觉算法竞赛冠军，吴文俊人工智能科技进步二等奖，中国发明创新银奖。

作为中科院人工智能创新研究院“2035团队”跨模态通用人工智能平台负责人，带领团队研发了业内首个千亿参数“紫东太初”多模态预训练大模型和“小初”虚拟数字人，自研了多模态大模型、视觉大模型、自监督学习等多种关键技术。曾携自主研发的人工智能机器人在CCTV1、CCTV2、CCTV3、北京卫视和湖南卫视等做技术展示。

｜DataFun新媒体矩阵｜