【原】重新排列视觉世界

雨夜的博客 2021-09-18

展开全文

重新排列物体（例如整理书架上的书籍、移动餐桌上的餐具或推动成堆的咖啡豆）是一项基本技能，可以使机器人与我们多样化和非结构化的世界进行物理交互。虽然对人们来说很容易，但完成这些任务对于具身机器学习 (ML) 系统来说仍然是一个开放的研究挑战，因为它需要高级和低级的感知推理。例如，在堆放一堆书时，可以考虑将书堆放在哪里，按什么顺序堆放，同时确保书的边缘对齐，形成整齐的堆放。

在 ML 的许多应用领域，模型架构的简单差异可以表现出截然不同的泛化特性。因此，人们可能会问是否有某些深层网络架构支持重排问题的简单底层元素。例如，卷积架构在计算机视觉中很常见，因为它们编码平移不变性，即使图像移位也会产生相同的响应，而Transformer 架构在语言处理中很常见，因为它们利用自注意力来捕获远程上下文依赖关系。在机器人应用中，一种常见的架构元素是使用以对象为中心的表示，例如姿势、关键点，或学习模型中的对象描述符，但这些表示需要额外的训练数据（通常手动注释）并且难以描述诸如可变形物（例如橡皮泥）、流体（蜂蜜）或成堆的东西（切碎的洋葱）之类的困难场景。

今天，我们展示了Transporter Network，这是一种用于学习基于视觉的重排任务的简单模型架构，它在CoRL 2020期间作为出版物和全体会议发表。Transporter Nets 使用一种新颖的 3D 空间理解方法，避免了对以对象为中心的表示的依赖，使它们成为基于视觉的操作的通用方法，但比基准的端到端替代方案具有更高的样本效率。因此，它们在真正的机器人上进行训练既快速又实用。我们还与Ravens一起发布了一个随附的 Transporter Nets 开源实现，这是我们新的模拟基准套件，包含十个基于视觉的操作任务。

Transporter Networks：为机器人操作重新排列视觉世界

Transporter Network 架构背后的关键思想是，人们可以将重新排列问题表述为学习如何移动一大块 3D 空间。而不是依赖于对象的明确定义（这必然难以捕捉所有边缘情况），3D 空间是一个更广泛的定义，可以作为重新排列的原子单元，并且可以广泛地包含一个对象、一个对象的一部分或多个对象等。网络通过捕获 3D 视觉世界的深层表示来利用这种结构，然后将其部分叠加在自身上以想象 3D 空间的各种可能的重新排列。然后它选择最匹配它在训练期间（例如，来自专家演示）看到的那些重排，并使用它们来参数化机器人动作。这种公式允许 Transporter Nets 泛化到看不见的对象，并使它们能够更好地利用数据中的几何对称性，以便它们可以外推到新的场景配置。基于可供性的操作和TossingBot，只关注抓握和抛掷。

Transporter Nets 捕获视觉世界的深层表示，然后将其部分叠加到自身上，以想象 3D 空间的各种可能的重新排列，以找到最佳的一个并告知机器人动作。

Ravens 基准

为了在一致的环境中评估 Transporter Nets 的性能，以便与基线和消融进行公平比较，我们开发了Ravens，这是一个包含十个模拟视觉重排任务的基准套件。Ravens 的Gym API 具有内置的随机预言机，用于评估模仿学习方法的样本效率。Ravens 避免了无法转移到真实设置的假设：观察数据仅包含 RGB-D 图像和相机参数；动作是末端执行器姿势（转换为具有反向运动学的关节位置）。

在这十项任务上的实验表明，Transporter Nets 的样本效率比其他端到端方法高出几个数量级，并且仅用 100 次演示就能在许多任务上取得超过 90% 的成功，而基线很难用相同数量的数据。在实践中，这使得收集足够的演示成为在真实机器人上训练这些模型的更可行的选择（我们在下面展示了示例）。 file

我们新的 Ravens 基准测试包括十个基于视觉的模拟操作任务，包括推和取放，实验表明 Transporter Nets 的样本效率比其他端到端方法高几个数量级。Ravens 的 Gym API 具有内置的随机预言机，用于评估模仿学习方法的样本效率。我们新的Ravens基准测试包括十个基于视觉的模拟操作任务，包括推和取放，实验表明 Transporter Nets 的样本效率比其他端到端方法高几个数量级。Ravens 的Gym API 具有内置的随机预言机，用于评估模仿学习方法的样本效率。

亮点通过

10 个示例演示，Transporter Nets 可以学习拾取和放置任务，例如堆叠盘子（令人惊讶的是容易错位！），多模式任务，例如将盒子的任何角与桌面上的标记对齐，或构建金字塔金字塔。 file

通过利用闭环视觉反馈，Transporter Nets 能够通过少量演示来学习各种多步骤顺序任务：例如移动河内塔的磁盘、码垛箱或组装训练期间未见过的新对象套件. 这些任务具有相当长的“视野”，这意味着要解决该任务，模型必须正确排列许多单独的选择。政策也倾向于学习紧急恢复行为。 file

关于这些结果的一个令人惊讶的事情是，除了感知之外，这些模型还开始学习类似于高级规划的行为。例如，要解决河内塔，模型必须选择下一个要移动的圆盘，这需要根据当前可见的圆盘及其位置识别棋盘的状态。对于箱子码垛任务，模型必须找到托盘的空位，并确定新箱子如何装入这些空位。这样的行为令人兴奋，因为它们表明，有了所有内置的不变性，模型可以将其能力集中在学习更高级的操作模式上。

Transporter Nets 还可以学习使用由两个末端执行器姿势定义的任何运动原语的任务，例如将成堆的小物体推入目标集，或重新配置可变形绳以连接 3 边正方形的两个端点。这表明刚性空间位移可以作为非刚性空间位移的有用先验。 file