Meta AI使用人工智能让儿童的绘画栩栩如生——生成动态视频

小王2230082999 2021-12-23

展开全文

孩子们绘制出令人着迷的独特和富有创造力的人物，这些人物可以激发Meta 的想象力，并要求Meta 以不同的方式思考，以识别他们图片中的人和事物。虽然父母或老师可以很容易地看到孩子的画要展示什么，但人工智能很难完成这项任务。儿童的绘画通常以抽象、奇特的方式构建，因此如果人物的脚不稳定或双臂位于身体的同一侧，即使是最擅长发现物体的人工智能系统也会感到困惑在逼真的图像和绘图中。

Meta AI 研究人员正在努力克服这一挑战，以便 AI 系统能够更好地识别儿童创作的各种不同的人物图画。

Meta 很高兴地宣布一种首创的方法，可以自动为儿童手绘人物人物和类人角色（即有两条胳膊、两条腿、一个头等的角色）制作动画。

将这些图画栩栩如生，在几分钟内使用 AI。通过将它们上传到Meta 的原型系统，父母和孩子可以体验看着他们的画变成跳舞、跳跃和跳跃的动人角色的兴奋。他们甚至可以下载他们的动画图画与朋友和家人分享。如果父母愿意，他们也可以提交这些图纸以帮助改进 AI 模型。

通过教授 AI 以这种典型的人类创造力形式有效工作，Meta 希望这个项目将使Meta 更接近于构建能够从人类的角度理解世界的 AI。Meta 也希望这项工作能够激发更多关于使用人工智能来增强人们的创造力并激发这项技术的富有想象力的新用途的研究。

为什么自动 AI 动画工具对儿童绘画不起作用

Meta 的目标是建立一个人工智能系统，该系统可以在没有任何人为指导的情况下，以高成功率识别儿童绘画中的人形人物并自动为其制作动画。虽然许多人工智能工具和技术旨在处理逼真的人类图像，但儿童绘画增加了一定程度的多样性和不可预测性，这使得识别所描绘的内容变得更加复杂。儿童画中的“人”有许多不同的形式、颜色、大小和比例，在身体对称性、形态和视角方面几乎没有相似之处。Meta 通过四个步骤来应对这一 AI 挑战，在每个阶段微调Meta 的方法以适应儿童绘画中存在的巨大多样性。

通过物体检测识别人形

为儿童画人物画动画的第一步是将人物与背景和图片中的其他类型的人物区分开来。使用现有技术的对象检测在儿童绘画上效果很好，但分割掩码不够准确，无法用于动画。为了解决这个问题，Meta 改为使用从对象检测器获得的边界框，并应用一系列形态学操作和图像处理步骤来获得掩码。

在提取儿童绘画中的人形字符进行处理时，Meta 使用 Meta AI 基于卷积神经网络的对象检测模型 Mask R-CNN

检测器

. Mask R-CNN 在最大的公开可用分割数据集之一上进行了预训练，但它由真实世界对象的照片组成，而不是图纸。为了处理绘图，需要对模型进行微调，Meta 使用 ResNet-50+FPN 进行了微调，以预测单个类别的“人物”。Meta 邀请 Meta 的同事使用Meta 的系统分享他们孩子的艺术作品并为其制作动画，Meta 获得了大约 1,000 幅帮助Meta 训练 AI 的图画。

在微调过程中，网络在检测测试数据集中的任务方面做得很好。Meta 观察到的失败案例分为四类：不包括整个图形、未将图形与背景分开、未将几个靠近的图形分开以及错误地识别非人类图形（例如树）。Meta 相信这些类型的失败源于训练集中人物的多样性，并且随着模型的学习越来越多，模型将继续改进。

使用角色遮罩从场景中提升人形

从绘图中识别和提取人物后，准备动画的下一步是在称为遮罩的过程中将其与场景的其他部分和背景分离。蒙版必须密切反映图形的轮廓，因为它将用于创建网格，然后将其变形以生成动画。正确完成后，蒙版将包含角色的所有部分，而不会包含背景中的任何内容。

尽管 Mask R-CNN 可以输出掩码，但Meta 发现它们不适合动画。当身体部位的外观变化很大时，预测的掩码往往无法捕捉到整个图形，如下图所示，它显示了一个大的黄色三角形的身体和一个单一的铅笔笔划的手臂。预测的掩码也经常因为遗漏了“空心”字符的中间而失败，或者被绘制为轮廓而不是着色的字符。

相反，Meta 开发了一种基于经典图像处理的方法，该方法对这些变化更加稳健。使用这种方法，Meta 使用每个检测到的字符的预测边界框裁剪图像。然后Meta 应用自适应阈值和形态学关闭/拨号操作，从框的边缘填充，并假设蒙版是未被填充的最大多边形。虽然这种方法对于提取适用于动画的准确蒙版来说简单而有效，但在背景杂乱、人物靠得很近或纸张在页面上有皱纹、撕裂或阴影时，它可能会失败。

来自 Mask R-CNN 的分割掩码有时无法严格遵循角色的形式（中间、顶部）或包括角色的所有部分，例如手臂（中间、底部）。在许多情况下，在 Mask R-CNN 预测边界框上使用图像处理管道会产生更适合动画的掩码（右图）。

通过索具准备动画

孩子们绘制的人物具有各种各样的身体形状，远远超出了具有头部、手臂、腿部和躯干的传统人类形状。许多孩子开始将人类描绘成通常被称为“蝌蚪人”的人，没有躯干，手臂和腿直接连接到头部。一些孩子发展到“过渡”身材，腿从头部伸出，手臂从大腿伸出。Meta 需要一种能够处理这种形态变化的索具方法。

Meta 使用 AlphaPose，一个为人体姿势检测训练的模型，来识别人物的关键点，这些关键点可以作为臀部、肩膀、肘部、膝盖、手腕和脚踝。AlphaPose 是在真人图像上进行训练的，因此在Meta 将其调整为检测儿童绘画中的姿势之前，Meta 必须重新训练它以处理儿童绘画中存在的变化类型。Meta 通过内部收集和注释儿童人物画的小数据集来做到这一点。然后，使用在这个初始数据集上训练的姿势检测器，Meta 创建了一个内部工具，允许父母上传和动画他们孩子的图画，并允许Meta 使用上传的图画进行额外的训练。随着更多数据的进入，Meta 反复重新训练模型，直到达到高准确度为止。

使用 3D 动作捕捉为 2D 人物制作动画

一旦Meta 有了蒙版和联合预测，Meta 就拥有了制作动画所需的一切。Meta 首先使用提取的蒙版生成网格，并使用原始绘图对其进行纹理化。使用预测的关节位置，Meta 为角色创建骨架。通过旋转骨骼并使用新的关节位置使网格变形，Meta 可以将角色移动到各种姿势上。通过将角色移动到一系列连续的姿势，Meta 可以创建动画。Meta 可以根据关节预测的可信度选择不同的动作来应用：如果手臂和腿都被正确预测，动画可以无缝地发生。但是如果绘图中不存在肢体，则其关节置信度值将很低，Meta 将不得不放弃需要该肢体的动画

为了使用 3D 动作捕捉为 2D 人物制作动画，Meta 利用了许多儿童使用Meta 所说的扭曲视角进行绘画的事实。许多孩子最初从他们最容易辨认的角度绘制身体部位是很常见的，这可能与他们在真实人类身上出现的方式不同。例如，他们倾向于从侧面绘制腿和脚，从正面绘制头部和躯干。

Meta 在运动重定向步骤中利用了这种观点。对于下半身和上半身，Meta 会自动确定是从前视图还是侧视图更容易识别运动。使用选定的视图，Meta 将运动投影到单个 2D 平面上并使用它来驱动角色。Meta 使用通过 Mechanical Turk 运行的感知用户研究来验证这种运动重定向方法的结果。

左图：在制作动画之前，Meta 从绘图中创建了一个绑定角色。右图：Meta 通过将一帧运动捕捉数据投影到 2D 平面上并旋转角色的四肢以匹配项目的四肢来调整角色。Meta 可以从正面（顶行）、侧面（中行）和扭曲的视角（底行）投影运动捕捉数据。

将扭曲的视角考虑在内是有帮助的，因为许多类型的运动不会完全落在单个投影平面上。例如，跳绳时，手臂和手腕往往主要在额平面内移动，而弯曲的腿则倾向于在矢状平面内移动。因此，Meta 不会为运动捕捉姿势确定单个运动平面，而是分别确定上半身和下半身的投影平面。

使用 AI 为更复杂的动画提供动力

Meta 希望Meta 的动画工具能够激发人们对他们的绘画进行试验，并将其带入未知的方向。

通过分享Meta 的工作，Meta 也希望鼓励更多业余绘图领域的计算机视觉工作。该项目的未来研究可以集中在识别和应用更定制的动作到人物的子类别，例如超级英雄、公主、怪物和忍者。例如，对角色各部分进行更细粒度的分析也将有助于识别触角、尾巴和斗篷，并应用次要运动元素以增加动画的吸引力。也许有一天，人工智能系统可以绘制复杂的图画，然后使用多个相互交互的奇幻角色和背景元素立即创建一部详细的动画卡通。有了 AR 眼镜，这些故事甚至可以在现实世界中栩栩如生，与刚才画它的孩子跳舞或交谈。可能性与人类的想象力一样无限。