【原】视觉+AI+推理，英伟达这项研究为机器人走进复杂环境打开了新可能

RoboSpeak 2022-03-07

展开全文

感知和推理一直是人类特有的天赋，从孩童开始，人类就开始学习并逐渐学会了排除推理（Reasoning by elimination）的方法。而人工智能如果能够做到这一点，必然将会助推机器人等产业实现更大的飞跃。

英伟达（NVIDIA）研究人员于去年12月在 NeurIPS 上发表20篇研究最新进展的论文，解释了最新的人工智能和图形图像理解技术。

英伟达一直走在人工智能创新的最前沿，不断突破着机器学习、自动驾驶汽车、机器人、图形等领域的技术界限，这次他们的研究理论同样非常有意思。

▍为什么要做陌生环境推理？

在本次的论文中，英伟达介绍了尝试进行的一系列排除推理学习研究，包括如何从零样本中进行排除推理学习，以及识别已知环境的不同新组合。他们将Franka机器人作为研究载体，将理论研究成果在机器人上快速实现了实验和初步验证。

先看一个视频：

从视频中可以看到，这个叫做Gemini的机器人，能够通过与人对话，理解人类的选择意图，并最终从有多个物体的复杂环境中做出正确的抓取选择，也可以根据所处环境的位置来区分物体并进行动作。

这并不是一件很容易的事情，因为人类对复杂场景的理解能力远远超出了机器人自上而下的3D感知方式。例如人类过一条没有指示灯的马路，就可以根据车流、马路情况，去选择合适的时间避开车辆成功过马路，但机器人很难做到。

英伟达的研究人员发现，这是因为当人类在不确定的自然场景中进行思考和动作时，会先根据看到的场景和人，预判场景中各类事物的逻辑关系，同时预测物体和人的移动轨迹，甚至可以推断他们动作的原因，从而才能完成对于场景的确定性排除推理，得到最正确的答案。

英伟达希望通过机器学习和人工智能结合的方法，尝试解析并实现这种对于空间的立体感知和选择能力。为此，他们不仅让机器人结合了机器视觉，尝试利用2D画面来检测、跟踪、推断3D姿势并重建完整的 3D场景，还开发了一种允许人工智能通过自主学习推理环境变量的算法。

这个算法建立在例如英伟达的Riva等以语言交互为基础的加速的对话式AI应用框架上。

Riva这个框架是英伟达于2020年5月发布并对外推出的一个GPU加速应用框架，该框架可以使企业能够根据自身所处行业、产品和客户的特点，使用视频和语音数据构建最为先进的定制化对话式AI服务。

随着居家办公、远程医疗和远程学习的快速兴起，对于能够支持实时转录、视频通话摘要等定制化语言型AI服务的需求也随之激增。而英伟达的Riva则还可以用在更广泛的方面，例如配合视觉提高机器人的环境推理能力。

在视频中，搭载Riva的Franka机器人根据需求语音发现场景下面临多个选择时，会再次提出问题，从而缩小选择范围，正确判断和推理排除不确定因素，最后调整位姿完成动作。

当然，要想更加轻易实现对物体的感知、视觉推理和对话式AI，首先需要一个很好的机器人开发硬件平台，英伟达的Gemini则依然是附加了FCI (Franka Control Interface)控制接口的Franka Emika探索版机器人，并在此基础上集成了一个具备AI对话和视觉推理的系统。

▍排除推理学习的新方法

在开源版Franka机器人(Researchversion)的基础上，英伟达发现，物体要素特征剥离是机器人能够顺利完成自主推理的关键，这对于机器人能否进入更广泛的环境中至关重要。尤其是如何让机器人在没有采取大量训练的情况下，在陌生环境中对不熟悉的对象进行推理，或者是在熟悉与不熟悉对象混合的开放世界场景中进行工作。

传统机器学习模型主要被训练来执行归纳推理：从训练的示例中概括归纳规则。但在英伟达的这项研究工作中，研究人员其实采取了一种排除推理的方法。即机器人收到并理解语音转成的文本指令进行类似轮廓物品的推理，例如“选择青色的灯泡和棕色的钥匙”（图 1），这其中就包含熟悉的概念和不熟悉的概念。

在英伟达的这个学习框架中，Franka机器人结合了感知模块与包含内部记忆的推理模块，通过强化学习构建推理策略，通过考虑所有可行性，实现对于即使从未见过的对象或概念，也可以做出正确的推理判断。此外，它还能使用单样本学习（one-shot learning）的方式将新概念添加到其已知概念集中，从而可以识别更多新概念。

此外，英伟达在Franka Emika探索版机器人的基础上，还展示了如何使用强化学习训练进行RBE推理，机器人能使用它来学习新概念，并将其新知识应用于推理其他新概念上。

他们在一组新的环境中对这种方法进行了评估，例如能够使用机器人上的视觉硬件读取相同盒子上的标签信息以确定内容，得益于此，灵活的Franka机器人从一堆随机分布的物体中，选取出了正确的物体，同时调整了关节位置和速度，并选择以最佳轨迹抓取和移动物体将它递给指定对象。

结果表明，Franka机器人成功地通过排除推理学习的方式，还可以学习新的概念并将其用于进一步的推理。这种方法通过扩展丰富的有监督学习方法和能够处理新概念的理性框架，为随机应变处理开放世界环境铺平了道路。

▍零样本识别组合推理

Franka稳定的开源版机器人(Research version)硬件平台和灵敏的力控制使得英伟达在进行更深层次、更具创新性的一些研究试验时同样能够更容易获得成功。

组合推理一直被认为是人类智能的标志，也是目前人工智能系统目前面临的一个基本限制。举个简单的例子，即使人们从未见过紫色花椰菜，也可以根据他们对花椰菜和其他紫色物体的熟悉程度来识别。尽管多特征组合性是深度学习网络的关键设计因素，但不幸的是，因为新标签通常建立在与类标签相关的特征上，当前的深度学习模型难以推广到新标签多次组合的情况。

在这些实验中，英伟达通过一些方式，解决了零样本组合的机器识别问题，同时英伟达尝试在简单的随机性场景中，让Franka机器人通过遵循简短的语言指令，通过排除推理的方式完成对某些事物的判断和选择。

零样本随机性组合是机器学习识别已知属性对象进行组合后产生的新问题，这种组合泛化能力对于视觉和语言等现实领域的学习至关重要，此类场景在无人驾驶中会遇到非常多。

例如，行驶中的汽车就因为视觉场景重叠组合会面临很高的空间复杂度问题，这个复杂度会随着物体数量及其属性的增加呈指数增长。因此目前没有一个无人驾驶的方案能够覆盖所有场景下的组合子集，从而精准来识别各类场景分布下的长尾问题。

这种多事物泛化组合的情况也出现在很多AI领域的问题中出现，例如文本理解、语音语义理解和控制。

不仅如此，按照传统方法从数据中训练出来的模型往往会因组合泛化而失败，原因有两个：分布偏移和纠缠（distribution-shift and entanglement）。

因为识别新组合是分布偏移的一种极端情况，想要识别在训练中从未观察到或者出现过的标签组合（零样本学习）非常难。在以往的训练期间，模型需要学习多标签相关性，但这会在实际测试中因为多标签的负责联系损害人工智能的推理性。

同时，因为训练样本本身通常以组合方式标记，因此将它们的“基本”特征与示例分离通常会造成更多难以明确定义的问题。例如这会导致对新分布的样本分类错误和混淆，导致学习系统很难进行组合泛化。

英伟达尝试使用了因果框架（causal framework）解决这两个挑战，并提出了一个基于因果关系的嵌入模型，置入该模型的Franka机器人能从相关（混淆）数据中分离视觉对象的训练数据，并将预测属性和对象重新组合，实现更高颗粒度的真实数据集。

▍结语

人们可以从语言或演绎推理提供的信息中，无需任何样本而学习到新的视觉概念，这将有助于机器人在对于文本的上下文理解中占据更强的优势，例如，机器人可以使用推理排除法从上下文中推断出某些文字和特殊语句的含义。

可以预见，在未来基于视觉触觉的推理学习和对话式人工智能将使机器人技术取得更大进步，但在此之前，如何解决复杂环境下的特征抓取和少样本情况问题，仍然需要更多人进行研究和探索。

References

[1] Harsh Agrawal,Eli A. Meirom,Yuval Atzmon,ShieMannor,Gal Chechik,NVIDIA Research, Israel,Georgia Tech, Georgia.Known unknowns: Learning novel concepts using reasoning-by-elimination

[2] YuvalAtzmon,Felix Kreuk, Uri Shalit,Gal Chechik,NVIDIA Research, Tel Aviv,Israel,Bar-Ilan University, Ramat Gan, Israel,Technion - Israel Institute ofTechnology.A causal view of compositional zero-shot recognition