【原】Pathdreamer：室内导航的世界模型

雨夜的博客 2022-02-18

展开全文

当一个人在一个陌生的建筑物中导航时，他们会利用许多视觉、空间和语义线索来帮助他们有效地实现目标。例如，即使在陌生的房子里，如果他们看到用餐区，他们也可以对厨房和休息区的可能位置进行智能预测，从而预测常见家用物品的预期位置。对于机器人代理，利用新建筑中的语义线索和统计规律是具有挑战性的。一种典型的方法是通过无模型强化学习以端到端的方式隐式学习这些线索是什么，以及如何将它们用于导航任务. 然而，以这种方式学习的导航提示学习成本高昂，难以检查，并且很难在另一个代理中重用而不从头开始学习。

file

机器人导航和规划代理的一个有吸引力的替代方案是使用世界模型来封装有关其周围环境的丰富而有意义的信息，这使代理能够对其环境中的可操作结果做出具体预测。此类模型在机器人技术、模拟和强化学习方面引起了广泛的兴趣，并取得了令人印象深刻的结果，包括为模拟 2D 赛车任务找到了第一个已知解决方案，并在 Atari 游戏中实现了人类水平的表现。然而，与现实世界环境的复杂性和多样性相比，游戏环境仍然相对简单。

在“ Pathdreamer: A World Model for Indoor Navigation ”中，发表于ICCV 2021，我们提出了一个世界模型，该模型仅使用有限的种子观察和建议的导航轨迹，生成对代理看不见的建筑物区域的高分辨率 360º 视觉观察。如下面的视频所示，Pathdreamer 模型可以从单个视点合成沉浸式场景，预测代理移动到新视点甚至完全看不见的区域（例如拐角处）时可能会看到什么。除了在视频编辑和使照片栩栩如生方面的潜在应用之外，解决这项任务有望将有关人类环境的知识编成法典，从而使在现实世界中导航的机器人代理受益。例如，一个负责在陌生建筑中寻找特定房间或物体的机器人可以使用世界模型进行模拟，以在物理搜索任何地方之前识别可能的位置。在模型中训练代理。

file

Pathdreamer 如何工作？

Pathdreamer 将一个或多个先前观察的序列作为输入，并生成对未来位置轨迹的预测，这些预测可以由与返回的观察交互的代理预先提供或迭代提供。输入和预测都由 RGB、语义分割和深度图像组成。在内部，Pathdreamer 使用 3D 点云来表示环境中的表面。云中的点都标有它们的 RGB 颜色值和它们的语义分割类，例如墙壁、椅子或桌子。

为了预测新位置的视觉观察，首先将点云重新投影到新位置的 2D 中以提供“指导”图像，Pathdreamer 从中生成逼真的高分辨率 RGB、语义分割和深度。随着模型的“移动”，点云中会积累新的观察结果（真实的或预测的）。使用点云进行记忆的一个优势是时间一致性——重新访问的区域以与先前观察一致的方式呈现。

file

为了将引导图像转换为合理、真实的输出，Pathdreamer 分两个阶段运行：第一阶段，结构生成器，创建分割和深度图像，第二阶段，图像生成器，将这些渲染为 RGB 输出。从概念上讲，第一阶段提供场景的合理的高级语义表示，第二阶段将其渲染为逼真的彩色图像。两个阶段都基于卷积神经网络。

file

多样化的生成结果

在高度不确定的区域，例如预测在拐角处或在看不见的房间中的区域，可能会有许多不同的场景。结合随机视频生成的思想，Pathdreamer 中的结构生成器以噪声变量为条件，该变量表示引导图像中未捕获的下一个位置的随机信息。通过对多个噪声变量进行采样，Pathdreamer 可以合成不同的场景，允许代理针对给定轨迹对多个似是而非的结果进行采样。这些不同的输出不仅反映在第一阶段的输出（语义分割和深度图像）中，还反映在生成的 RGB 图像中。

file

Pathdreamer 接受了来自Matterport3D 的图像和 3D 环境重建的训练，能够合成逼真的图像以及连续的视频序列。由于输出图像具有高分辨率和 360º，因此可以很容易地将其转换为现有导航代理用于任何相机视野。如需更多详细信息并亲自试用 Pathdreamer，我们建议您查看我们的开源代码。

视觉导航任务的应用

作为视觉世界模型，Pathdreamer 显示出提高下游任务性能的强大潜力。为了证明这一点，我们将 Pathdreamer 应用于视觉和语言导航(VLN) 的任务，其中具体代理必须遵循自然语言指令导航到真实 3D 环境中的某个位置。使用房间到房间(R2R) 数据集，我们进行了一项实验，其中指令遵循代理通过模拟环境中许多可能的可导航轨迹，根据导航指令对每个轨迹进行排名，并选择排名最佳的轨迹来执行，从而提前计划。考虑了三种设置。在 Ground-Truth 设置中，代理通过与实际环境交互（即通过移动）来进行计划。在基线设置中，代理通过与对建筑物内的可导航路线进行编码但不提供任何视觉观察的导航图进行交互，提前计划而不移动。在 Pathdreamer 设置中，代理通过与导航图交互而无需移动即可提前计划，并且还接收由 Pathdreamer 生成的相应视觉观察。

在提前规划三个步骤（约 6m）时，在 Pathdreamer 设置中，VLN 代理实现了 50.4% 的导航成功率，明显高于没有 Pathdreamer 的 Baseline 设置中的 40.6% 成功率。这表明 Pathdreamer 编码了有关现实世界室内环境的有用且可访问的视觉、空间和语义知识。作为说明完美世界模型性能的上限，在 Ground-Truth 设置（通过移动进行规划）下，代理的成功率为 59%，尽管我们注意到此设置需要代理花费大量时间和资源进行物理探索许多轨迹，在现实世界中可能代价高昂。

file