分享

学习看透明物体

 雨夜的博客 2022-02-14

视频介绍:学习看透明物体

3D 距离传感器已广泛应用于机器人技术,可生成丰富而准确的环境 3D 地图,从自动驾驶汽车到自动机械手。然而,尽管这些复杂的机器人系统无处不在,透明物体(如玻璃容器)甚至可以混淆常用的一套昂贵的传感器。这是因为光学 3D 传感器由假设所有表面都是朗伯表面的算法驱动,即它们在所有方向均匀地反射光线,从而从所有视角产生均匀的表面亮度。然而,透明物体违反了这个假设,因为它们的表面既折射又反射光。因此,来自透明物体的大部分深度数据都是无效的或包含不可预测的噪声。

file

file

让机器更好地感知透明表面不仅可以提高安全性,还可以在非结构化应用中开辟一系列新的交互——从机器人处理厨具或分类回收塑料,到导航室内环境或在玻璃桌面上生成 AR 可视化。

为了解决这个问题,我们与Synthesis AI和哥伦比亚大学的研究人员合作开发了ClearGrasp,这是一种机器学习算法,能够从 RGB-D 图像中估计透明物体的准确 3D 数据。这是通过大规模合成数据集实现的我们今天也公开发布。ClearGrasp 可以处理来自任何标准 RGB-D 相机的输入,使用深度学习来准确重建透明物体的深度,并泛化到训练期间看不见的全新物体。这与以前的方法形成对比,以前的方法需要透明物体的先验知识(例如,它们的 3D 模型),通常结合背景照明和相机位置的地图。在这项工作中,我们还证明了 ClearGrasp 可以通过将其整合到我们的拾放机器人的控制系统中来使机器人操作受益,在那里我们观察到透明塑料物体抓取成功率的显着提高。

file

透明对象的视觉数据集

训练任何有效的深度学习模型(例如,用于视觉的ImageNet或用于BERT 的Wikipedia)都需要大量数据,ClearGrasp 也不例外。不幸的是,没有数据集可用于透明对象的 3D 数据。现有的 3D 数据集(如Matterport3D或ScanNet)忽略了透明表面,因为它们需要昂贵且耗时的标记过程。 为了克服这个问题,我们创建了自己的透明对象的大规模数据集,其中包含 50,000 多个具有相应表面法线的逼真渲染

(代表表面曲率)、分割掩码、边缘和深度,可用于训练各种 2D 和 3D 检测任务。每个图像最多包含五个透明对象,它们位于平坦的地平面上或手提包内,具有不同的背景和照明。

file

我们还包括一个由 286 个真实世界图像组成的测试集,具有相应的地面实况深度。真实世界的图像是通过一个艰苦的过程拍摄的,将场景中的每个透明物体替换为具有相同姿势的已绘制物体。这些图像是在许多不同的室内照明条件下拍摄的,使用各种布料和单板背景,并包含散布在场景周围的随机不透明物体。它们包含存在于合成训练集中的已知对象和新对象。

file

挑战

虽然通过透明物体看到的背景扭曲视图混淆了典型的深度估计方法,但有一些线索可以暗示物体的形状。透明表面表现出镜面反射,这是一种镜面反射,在光线充足的环境中显示为亮点。由于这些视觉线索在 RGB 图像中很突出,并且主要受物体形状的影响,卷积神经网络可以使用这些反射来推断准确的表面法线,然后可以用于深度估计。

file

大多数机器学习算法试图直接从单目 RGB 图像中估计深度。然而,单目深度估计是一项不适定的任务,即使对于人类也是如此。我们观察到在估计平坦背景表面的深度时存在很大的误差,这加剧了放置在它们上面的透明物体的深度估计误差。因此,与其直接估计所有几何体的深度,我们推测校正来自RGB-D 3D 相机的初始深度估计更实用——这将使我们能够使用非透明表面的深度来告知深度透明表面。

ClearGrasp 算法

ClearGrasp 使用 3 个神经网络:一个用于估计表面法线的网络,一个用于遮挡边界(深度不连续性),另一个用于屏蔽透明对象。遮罩用于移除属于透明对象的所有像素,以便可以填充正确的深度。然后我们使用全局优化模块,从已知表面开始扩展深度,使用预测的表面法线来指导形状重建和预测的遮挡边界以保持不同对象之间的分离。

file

每个神经网络都在我们的合成数据集上进行了训练,并且它们在现实世界的透明物体上表现良好。然而,其他表面(如墙壁或水果)的表面法线估计很差。这是因为我们的合成数据集的局限性,它仅包含地平面上的透明对象。为了缓解这个问题,我们在表面法线训练循环中包含了来自Matterport3D和ScanNet数据集的一些真实室内场景。通过对域内合成数据集和域外真实词数据集的训练,该模型在我们测试集中的所有表面上都表现良好。

file

结果

总的来说,我们的定量实验表明,ClearGrasp 能够以比替代 方法高得多的保真度重建透明物体的深度。尽管仅接受合成透明对象的训练,但我们发现我们的模型能够很好地适应现实世界的领域——在跨域的已知对象上实现非常相似的定量重建性能。我们的模型还可以很好地推广到以前从未见过的具有复杂形状的新物体。

为了检查 ClearGrasp 的定性性能,我们从输入和输出深度图像构建 3D 点云,如下所示(项目网页上提供了其他示例)。由此产生的估计 3D 表面具有干净且连贯的重建形状——这对应用程序很重要,例如 3D 映射和 3D 对象检测——没有在单目深度估计方法中看到的锯齿状噪声。我们的模型是稳健的,并且在具有挑战性的条件下表现良好,例如识别位于图案背景中的透明物体或区分彼此部分遮挡的透明物体。

file

最重要的是,ClearGrasp 的输出深度可以直接用作使用 RGB-D 图像的最先进操作算法的输入。通过使用 ClearGrasp 的输出深度估计而不是原始传感器数据,我们在UR5 机械臂上的抓取算法在透明物体的抓取成功率方面取得了显着提高。使用平行颚爪时,成功率从基线的 12% 提高到 74%,使用吸力从 64% 提高到 86%。

file

限制和未来工作

我们合成数据集的一个限制是它不能代表准确的焦散,因为使用传统路径跟踪算法进行渲染的限制。因此,我们的模型将明亮的焦散与阴影混淆为独立的透明对象。尽管存在这些缺点,我们与 ClearGrasp 的合作表明,合成数据仍然是一种可行的方法,可以为基于学习的深度重建方法获得有效的结果。未来工作的一个有希望的方向是通过生成具有物理正确焦散和表面缺陷(例如指纹)的渲染来改进向真实世界图像的域转移。

使用ClearGrasp,我们证明高质量渲染可用于成功训练在现实世界中表现良好的模型。我们希望我们的数据集能够推动对透明物体的数据驱动感知算法的进一步研究。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多