【原】带有 AIST++ 的音乐条件 3D 舞蹈生成

雨夜的博客 2022-02-19

展开全文

舞蹈是几乎在所有文化中都能找到的通用语言，也是当今许多人在当代媒体平台上表达自己的一种方式。通过编写与音乐节拍一致的运动模式来跳舞的能力是人类行为的一个基本方面。然而，舞蹈是一种需要练习的艺术形式。事实上，通常需要专业的训练来为舞者配备丰富的舞蹈动作，以创造富有表现力的编舞。虽然这个过程对人们来说很困难，但对于机器学习 (ML) 模型来说更具挑战性，因为该任务需要能够生成具有高运动学复杂性的连续运动，同时捕捉运动与运动之间的非线性关系。伴奏音乐。

在ICCV 2021 上发表的“ AI Choreographer: Music-Conditioned 3D Dance Generation with AIST++ ”中，我们提出了一种全注意力跨模态变换器（FACT）模型，可以模仿和理解舞蹈动作，甚至可以增强一个人的编舞能力舞蹈。与模型一起，我们发布了一个大规模的多模态 3D 舞蹈动作数据集AIST++，其中包含 1408 个序列中 5.2 小时的 3D 舞蹈动作，涵盖 10 种舞蹈类型，每个类型都包括具有已知相机姿势的多视图视频。通过对 AIST++ 的广泛用户研究，我们发现 FACT 模型在定性和定量上都优于最近的最先进方法。

file

我们从现有的AIST 舞蹈视频数据库生成建议的 3D 运动数据集——一组带有音乐伴奏的舞蹈视频，但没有任何 3D 信息。AIST 包含 10 种舞蹈流派：Old School（Break、Pop、Lock和Waack）和New School（Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz和Ballet Jazz）。虽然它包含舞者的多视图视频，但这些摄像机没有经过校准。

出于我们的目的，我们根据广泛使用的SMPL 3D 模型使用的参数恢复了相机校准参数和 3D 人体运动。生成的数据库 AIST++ 是一个大规模的 3D 人类舞蹈动作数据集，其中包含与音乐搭配的各种 3D 动作。每个框架都包含大量注释：

9个相机内参和外参视图；
17 个COCO 格式的2D 和 3D 人体关节位置；
24 个 SMPL 姿势参数以及全局缩放和平移。

动作均匀分布在所有 10 种舞蹈类型中，涵盖每分钟节拍 ( BPM ) 的各种音乐节奏。每种舞蹈类型都包含85%的基本动作和15%的高级动作（更长的编舞由舞者自由设计）。

AIST++ 数据集还包含多视图同步图像数据，使其可用于其他研究方向，例如 2D/3D 姿态估计。据我们所知，AIST++ 是最大的 3D 人类舞蹈数据集，包含 1408 个序列、30 个主题和 10 个舞蹈流派，并具有基本和高级编舞。

file

因为 AIST 是一个教学数据库，它记录了多个舞者按照相同的编舞为不同的音乐以不同的 BPM，这是舞蹈中的常见做法。由于模型需要学习音频和运动之间的一对多映射，因此这在跨模态序列到序列生成中提出了独特的挑战。我们在 AIST++ 上仔细构建了不重叠的训练和测试子集，以确保在子集之间既不共享编排也不共享音乐。

Full Attention Cross-Modal Transformer (FACT) 模型

使用此数据，我们训练 FACT 模型以从音乐生成 3D 舞蹈。该模型首先使用单独的运动和音频转换器对种子运动和音频输入进行编码。然后将嵌入连接起来并发送到跨模态转换器，该转换器学习两种模态之间的对应关系并生成N 个未来的运动序列。然后使用这些序列以自我监督的方式训练模型。所有三个变压器都是端到端共同学习的。在测试时，我们将此模型应用于自回归框架，其中预测的运动作为下一代步骤的输入。因此，FACT 模型能够逐帧生成远程舞蹈动作。

file

FACT 涉及三个关键设计选择，这些选择对于从音乐中产生逼真的 3D 舞蹈动作至关重要。

所有的变换器都使用全注意掩码，它比典型的因果模型更具表现力，因为内部令牌可以访问所有输入。
我们训练模型预测当前输入之外的N 个未来，而不仅仅是下一个动作。这鼓励网络更多地关注时间上下文，并有助于防止模型在几个生成步骤后运动冻结或发散。
我们早期融合了两个嵌入（运动和音频）并采用了一个深的 12 层跨模态转换器模块，这对于训练一个真正关注输入音乐的模型至关重要。

结果

我们根据三个指标评估性能：

运动质量：我们计算AIST++ 测试集中真实舞蹈运动序列与 40 个模型生成的运动序列之间的Frechet 起始距离(FID)，每个序列有 1200 帧（20 秒）。我们将基于几何和动力学特征的 FID 分别表示为 FID g和 FID k。

生成多样性：与之前的工作类似，为了评估模型生成潜水员舞蹈动作的能力，我们计算了 AIST++ 测试集上 40 个生成动作的特征空间中的平均欧几里德距离，再次比较几何特征空间 (Dist g ) 和动力学特征空间 (Dist k )。

file

Motion-Music Correlation：由于没有设计良好的指标来衡量输入音乐（音乐节拍）和生成的 3D 运动（运动节拍）之间的相关性，我们提出了一种新的指标，称为节拍对齐分数 (BeatAlign)。

file

定量评估

我们将 FACT 在每个指标上的性能与其他最先进方法的性能进行比较。

file

我们还通过用户研究从感知上评估了运动与音乐的相关性，其中要求每个参与者观看 10 个视频，显示我们的一个结果和一个随机对应的结果，然后选择与音乐更同步的舞者。该研究由 30 名参与者组成，从专业舞者到很少跳舞的人。与每个基线相比，81% 的人更喜欢 FACT 模型输出而不是 Li 等人的输出，71% 的人更喜欢 FACT 而不是 Dancenet，77% 的人更喜欢 Dance Revolution。有趣的是，75% 的参与者更喜欢未配对的 AIST++ 舞蹈动作，而不是 FACT 生成的动作，这并不奇怪，因为原始舞蹈捕捉具有很强的表现力。

定性结果与DanceNet（左）和Li等先前方法的比较。艾尔。（中），使用 FACT 模型（右）生成的 3D 舞蹈更逼真，并且与输入音乐的相关性更好。

file

使用 FACT 模型生成更多 3D 舞蹈。

file file file file

结论与讨论

我们提出了一个模型，它不仅可以学习音频-运动对应关系，还可以生成以音乐为条件的高质量 3D 运动序列。由于从音乐生成 3D 运动是一个新兴的研究领域，我们希望我们的工作将为未来跨模态音频到 3D 运动生成铺平道路。我们还发布了迄今为止最大的 3D 人类舞蹈数据集AIST++。这个提出的、多视图、多流派、跨模态的 3D 运动数据集不仅可以帮助研究有条件的 3D 运动生成研究，还可以帮助人类理解研究。我们将在GitHub 存储库中发布代码，并在此处发布经过训练的模型。

虽然我们的结果显示了这个以音乐为条件的 3D 运动生成问题的有希望的方向，但还有更多的东西需要探索。首先，我们的方法是基于运动学的，我们不考虑舞者和地板之间的物理交互。因此，全局平移会导致伪像，例如脚滑动和浮动。其次，我们的模型目前是确定性的。探索如何为每首音乐生成多个逼真的舞蹈是一个令人兴奋的方向。