【原】识别图像和视频中的姿势相似性

雨夜的博客 2021-09-26

展开全文

日常动作，例如慢跑、读书、倒水或运动，可以被视为一系列姿势，包括一个人身体的位置和方向。从图像和视频中了解姿势是实现一系列应用的关键步骤，包括增强现实显示、全身手势控制和体育锻炼量化。然而，在图像和视频中以二维方式捕获的 3 维姿势因相机的视点而异。仅使用 2D 信息识别 3D 姿势相似性的能力将有助于视觉系统更好地理解世界。

在ECCV 2020的焦点论文“ View-Invariant Probabilistic Embedding for Human Pose ”（Pr-VIPE）中，我们提出了一种新的人体姿势感知算法，该算法通过映射2D 身体姿势关键点来识别不同相机视图中人体姿势的相似性到视图不变的嵌入空间。这种能力支持诸如姿势检索、动作识别、动作视频同步等任务。与直接将 2D 姿势关键点映射到 3D 姿势关键点的现有模型相比，Pr-VIPE 嵌入空间是 (1) 视图不变的，(2)概率性以捕获 2D 输入模糊性，以及 (3) 不需要相机参数在训练或推理期间。该模型使用实验室内设置数据进行训练，在提供相当好的 2D 姿势估计器（例如PersonLab、BlazePose等）的情况下，开箱即用地处理野外图像。该模型很简单，产生紧凑的嵌入，并且可以使用 15 个 CPU 进行训练（约 1 天）。我们已经在我们的 GitHub repo上发布了代码。

file

Pr-VIPE Pr-VIPE

的输入是一组 2D 关键点，来自任何至少产生13 个身体关键点的2D 姿势估计器，输出是姿势嵌入的均值和方差。2D 姿势嵌入之间的距离与它们在绝对 3D 姿势空间中的相似性相关。我们的方法基于两个观察：

随着视点的变化，相同的 3D 姿势在 2D 中可能看起来非常不同。
可以从不同的 3D 姿势投影相同的 2D 姿势。

第一个观察激发了对视图不变性的需求。为了实现这一点，我们定义了匹配概率，即从相同或相似的 3D 姿态投影不同 2D 姿态的可能性。Pr-VIPE 预测的匹配姿势对的匹配概率应该高于非匹配对。

为了解决第二个观察结果，Pr-VIPE 使用概率嵌入公式。由于许多 3D 姿势可以投影到相同或相似的 2D 姿势，因此模型输入表现出固有的模糊性，很难通过嵌入空间中点对点的确定性映射来捕捉。因此，我们通过概率映射将 2D 姿势映射到嵌入分布，其中我们使用方差来表示输入 2D 姿势的不确定性。例如，在下图中，左侧 3D 姿势的第三个 2D 视图与右侧不同 3D 姿势的第一个 2D 视图相似，因此我们将它们映射到具有较大方差的嵌入空间中的相似位置.

file

视图不变性

在训练期间，我们使用来自两个来源的 2D 姿势：多视图图像和真实 3D 姿势的投影。从批次中选择 2D 姿势的三元组（锚、正和负），其中锚和正是相同 3D 姿势的两个不同投影，负是非匹配 3D 姿势的投影。Pr-VIPE 然后从它们的嵌入中估计 2D 姿势对的匹配概率。

在训练过程中，我们将正对的匹配概率推到接近 1 的正对损失，其中我们最小化正对之间的嵌入距离，并通过最大化匹配概率的比率来减小负对的匹配概率在具有三重比损失的正负对之间。

file

概率嵌入

Pr-VIPE使用基于采样的方法将 2D 姿势映射到概率嵌入作为多元高斯分布，用于计算两个分布之间的相似性得分。在训练期间，我们使用高斯先验损失来正则化预测分布。

评估

我们提出了一个新的跨视图姿势检索基准来评估嵌入的视图不变性。给定单眼姿态图像，交叉视图检索旨在不使用相机参数从不同视图检索相同的姿态。结果表明，与两个评估数据集（Human3.6M、MPI-INF-3DHP）中的基线方法相比，Pr-VIPE 在视图中检索姿势更准确。

file

常见的3D姿态估计方法（如简单的基线用于上述比较，SemGCN，和EpipolarPose，以及很多其他），预测照相机坐标三维姿态，这是不直接查看不变。因此，使用估计的 3D 姿态进行检索需要每个查询索引对之间的严格对齐，由于需要奇异值分解(SVD) ，这在计算上是昂贵的。相比之下，Pr-VIPE 嵌入可以直接用于欧几里德空间中的距离计算，无需任何后处理。

应用

视图不变姿态嵌入可以应用于许多图像和视频相关的任务。下面，我们展示了 Pr-VIPE 在不使用相机参数的情况下应用于野外图像的交叉视图检索。

file

相同的 Pr-VIPE 模型也可用于视频对齐。为此，我们在一个小时间窗口内堆叠 Pr-VIPE 嵌入，并使用动态时间扭曲(DTW) 算法来对齐视频对。

file

然后，通过使用最近邻搜索对视频进行分类，可以将通过 DTW 计算出的视频对齐距离用于动作识别。我们使用Penn Action数据集评估 Pr-VIPE 嵌入，并证明使用 Pr-VIPE 嵌入而不对目标数据集进行微调，可产生极具竞争力的识别准确度。此外，我们表明 Pr-VIPE 甚至仅使用索引集中单个视图的视频就可以获得相对准确的结果。

file