【原】加强研究社区对街景全景图的访问以进行语言基础任务

雨夜的博客 2021-12-18

展开全文

在自然语言处理和计算机视觉方面继续取得重大进展，但研究界还远未拥有能够在真实环境中解释指令的计算机代理。世界视觉环境，并根据这些指令采取适当的行动。代理商，包括机器人，可以学习到导航新的环境，但他们还无法理解这样的指令，“勇往直前，由火车轨道的红色消防栓后左转。然后走三个街区，停在建筑物前，入口处挂着一排旗帜。” 这样做需要相关的口头描述，例如将火车轨道、红色消防栓和一排旗帜与它们的视觉外观相结合，了解什么是块以及如何计算其中三个块，根据空间配置（例如通过和经过）关联对象，关联方向（例如前进和左转）到行动，等等。

这种形式的基础语言理解问题是计算智能研究的绝佳测试平台，因为它们对人们来说很容易，但对当前的代理来说很难，它们综合了语言、感知和行动，并且对成功完成的评估很简单。在这些问题上取得进展可以极大地提高智能体与人协调运动和行动的能力。然而，寻找或创建足够大和多样化的数据集来开发强大的模型是很困难的。街景图像

是在基础语言理解任务上快速训练和评估代理的理想资源，它是世界的广泛且视觉丰富的虚拟表示。街景与谷歌地图集成，由数十亿个街道级全景图组成。这由 Cornell Tech 的研究人员创建的Touchdown数据集代表了一个引人注目的例子，它使用街景来推动对基础语言理解的研究。然而，由于对街景全景图的访问限制，Touchdown 只能提供全景图 ID 而不是全景图本身，有时使得更广泛的研究社区难以处理 Touchdown 的任务：视觉和语言导航(VLN)，在为通过街道导航提供哪些指令，以及需要从给定视点解析空间描述的空间描述分辨率(SDR)。

在“ Retouchdown：将 Touchdown 添加到 StreetLearn 作为街景中语言基础任务的可共享资源，”我们通过将 Touchdown 任务中引用的街景全景图添加到现有的StreetLearn数据集来解决这个问题。使用这些数据，我们生成了一个与 Touchdown 中定义的任务完全兼容的模型。此外，我们还为 Touchdown 任务提供了开源 TensorFlow 实现，作为VALAN工具包的一部分。

基础语言理解任务

Touchdown 的两个基础语言理解任务可以作为导航模型的基准。VLN 涉及遵循从一个街道位置到另一个街道位置的指令，而 SDR 需要在街景全景图中识别一个点，给出基于周围视觉上下文的描述。下面的动画显示了这两个任务是一起执行的。

Touchdown 的 VLN 任务类似于流行的Room-to-Room数据集中定义的任务，不同之处在于街景具有更大的视觉多样性和更多的运动自由度。Touchdown 中基线模型的性能为任务的许多方面的创新和改进留下了相当大的空间，包括语言和视觉表示、它们的集成以及学习采取以它们为条件的行动。

也就是说，在使更广泛的研究社区能够处理 Touchdown 的任务的同时，需要采取某些保护措施以使其符合Google 地图/Google 地球服务条款并保护 Google 和个人的需求。例如，全景图可能不会被大量下载，也不能无限期地存储（例如，个人可能会要求删除特定的全景图）。因此，研究人员必须定期删除和刷新全景图，以便在遵守这些条款的同时处理数据。

StreetLearn：经过批准的用于研究的全景图数据集DeepMind在去年发布的StreetLearn数据中打造了一种与街景全景图交互的替代方法。通过 StreetLearn，感兴趣的研究人员可以填写一份表格，请求访问纽约市和匹兹堡地区的一组 114k 全景图。最近用StreetLearn来支持StreetNav 任务套件，其中包括训练和评估遵循 Google 地图指示的代理。这是一个像 Touchdown 和Room-to-Room一样的 VLN 任务；但是，它的不同之处在于它不使用人们提供的自然语言。

此外，尽管 StreetLearn 的全景图与 Touchdown 覆盖的曼哈顿区域相同，但它们不足以研究涵盖 Touchdown 中定义的任务，因为这些任务需要在 Touchdown 注释过程中使用的精确全景图。例如，在 Touchdown 任务中，语言指令指的是瞬态对象例如汽车、自行车和沙发。不同时间段的街景全景图可能不包含这些对象，因此说明跨时间段不稳定。

此外，SDR 需要覆盖那些特定全景图的多个视点。例如，下面的全景图是从前一张街景向下一步的全景图。它们可能看起来相似，但实际上却大不相同——请注意，在两个全景图中左侧看到的自行车并不相同——并且 Touchdown 的位置朝向上述全景图的中间（在自行车座椅上）和到第二张全景图的左下角。因此，SDR 问题的像素位置对于不同的全景图是不同的，但与指令中提到的真实世界位置一致。这对于同时遵循 VLN 和 SDR 指令的端到端任务尤其重要：如果代理停止，

另一个问题是全景间距的粒度不同。下图显示了曼哈顿的 StreetLearn（蓝色）和 Touchdown（红色）全景图之间的重叠。有 710 张全景图（共 29,641 张）在两个数据集中共享相同的 ID（黑色）。Touchdown 覆盖了曼哈顿的一半，全景图的密度相似，但访问的节点的确切位置不同。

将 Touchdown Panoramas 添加到 StreetLearn 并验证模型基线

Retouchdown将 Touchdown 的传播模式与 StreetLearn 的传播模式相协调，后者最初旨在遵守 Google 和个人的权利，同时还简化了对研究人员的访问并提高了可重复性。Retouchdown 包括数据和代码，使更广泛的研究社区能够有效地处理 Touchdown 任务——最重要的是确保访问数据并简化可重复性。为此，我们将 Touchdown 全景图集成到 StreetLearn 数据集中，以创建具有 144k 全景图（增加 26%）的新版本 StreetLearn，这些全景图都被批准用于研究。

我们还重新实现了 VLN 和 SDR 的模型，并表明它们与原始 Touchdown 论文中获得的结果相当或更好。这些实现也是开源的，作为VALAN工具包的一部分。下面的第一张图比较了Chen 等人的结果。(2019)我们重新实现了 VLN 任务。它包括SDTW 指标，它衡量成功完成和真实参考路径的保真度。下面的第二张图对 SDR 任务进行了相同的比较。对于 SDR，我们显示了accuracy@ n px测量，它提供了模型预测在n范围内的次数百分比图像中目标位置的像素。由于模型和处理方面的一些细微差异，我们的结果略好一些，但最重要的是，结果表明更新后的全景图完全能够支持未来的 Touchdown 任务建模。

获取数据有

兴趣使用全景图的研究人员应填写StreetLearn 兴趣表。经批准，他们将获得下载链接。他们的信息被保存，以便 StreetLearn 团队可以通知他们数据的更新。这使 Google 和参与的研究人员都能有效且轻松地尊重删除请求。说明和全景连接数据可以从Touchdown github 存储库中获得。

我们希望这些额外全景图的发布将使研究界能够在这些具有挑战性的基础语言理解任务上取得进一步进展。