具身人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,并作为连接网络空间和物理世界的各种应用的基础。最近,多模态大型模型(MLMs)和世界模型(WMs)的出现因其卓越的感知、交互和推理能力而受到显著关注,使它们成为具身智能体大脑的有希望的架构。然而,目前还没有针对MLMs时代的具身AI的全面调查。在这项调查中,我们对具身AI的最新进展进行了全面探索。我们的分析首先通过具身机器人和模拟器的前沿代表性作品,全面了解研究重点及其局限性。然后,我们分析了四个主要研究目标:1)具身感知,2)具身交互,3)具身智能体,以及4)仿真到现实的适应性,涵盖了最先进的方法、基本范式和综合数据集。此外,我们探讨了虚拟和现实具身智能体中MLMs的复杂性,强调了它们在促进动态数字和物理环境中的交互中的重要性。最后,我们总结了具身AI的挑战和局限性,并讨论了它们潜在的未来方向。我们希望这项调查能为研究社区提供基础参考,并激发持续的创新。 我们翻译解读最新论文:关于嵌入式人工智能的全面调查,文末有论文链接。 关键词: 具身AI,网络空间,物理世界,多模态大型模型,世界模型,智能体,机器人学 I. 引言 具身AI最初由艾伦·图灵在1950年提出的图灵测试提出[1],旨在确定智能体是否能够展示不仅仅是在虚拟环境中解决抽象问题(网络空间1),而且也能够导航物理世界的复杂性和不可预测性。
网络空间中的智能体通常被称为无体AI,而物理空间中的智能体则是具身AI(表I)。最近在多模态大型模型(MLMs)方面的进步,为具身模型注入了强大的感知、交互和规划能力,以开发通用的具身智能体和机器人,它们积极地与虚拟和物理环境进行交互[2]。因此,具身智能体被广泛认为是MLMs的最佳载体。最近的代表性具身模型是RT-2 [3]和RT-H [4]。然而,当前MLMs在长期记忆能力、理解复杂意图以及复杂任务分解方面的能力是有限的。为了实现通用人工智能(AGI),具身AI的发展是一条基本途径。与像ChatGPT [5]这样的对话智能体不同,具身AI认为通过控制物理体现并与模拟和物理环境进行交互,可以实现真正的AGI [6]–[8]。随着我们站在AGI驱动创新的前沿,深入探索具身AI领域,解开它们的复杂性,评估它们当前的发展阶段,并思考它们未来可能遵循的潜在轨迹至关重要。如今,具身AI包含了计算机视觉(CV)、自然语言处理(NLP)和机器人技术等各种关键技术,最具代表性的是具身感知、具身交互、具身智能体和仿真到现实机器人控制。因此,通过全面调查捕捉具身AI的不断发展的景观,以追求AGI是至关重要的。具身智能体是具身AI最突出的基础。对于一个具身任务,具身智能体必须充分理解语言指令中的人类意图,积极探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并为复杂任务执行适当的行动[12],[13],如图2所示。多模态模型的快速发展在复杂环境中展示了优越的多功能性、灵活性和泛化能力,与传统的深度强化学习方法相比。最先进的视觉编码器[14],[15]提供的预训练视觉表示提供精确的对象类别、姿态和几何形状估计,使具身模型能够彻底感知复杂和动态的环境。功能强大的大型语言模型(LLMs)使机器人更好地理解来自人类的语言指令。有希望的MLMs为对齐来自具身机器人的视觉和语言表示提供了可行的方法。世界模型[16],[17]展示了显著的模拟能力和对物理法则的理解,使具身模型能够全面理解物理和真实环境。这些创新使具身智能体能够全面感知复杂环境,自然地与人类交互,并可靠地执行任务。 具身AI的进步已经取得了快速发展,在研究社区中引起了显著关注(图1),并被认为是实现AGI的最可行路径。谷歌学术报告称,具身AI出版物的数量很大,仅在2023年就有大约10700篇论文发表。这相当于平均每天29篇论文或每小时超过一篇论文。尽管对从MLMs中获取强大的感知和推理能力非常感兴趣,但研究社区缺乏一个全面的调查,可以帮助整理现有的具身AI研究、面临的挑战以及未来的研究方向。在MLMs时代,我们的目标是通过对网络空间到物理世界的具身AI进行全面系统调查来填补这一空白。我们从不同的角度进行调查,包括具身机器人、模拟器、四个代表性的具身任务(视觉主动感知、具身交互、多模态智能体和仿真到现实的机器人控制)以及未来的研究方向。我们相信这项调查将提供一个清晰的大局图,展示我们已经取得的成就,以及我们可以沿着这一新兴但非常有前景的研究方向进一步取得的成就。 与以往工作的不同之处:尽管已经有几篇关于具身AI的调查论文[6],[18]–[20],但它们大多已经过时,因为它们是在2023年左右的MLMs时代之前发表的。据我们所知,2023年之后只有一篇调查论文[8],它只关注了视觉-语言-动作具身AI模型。然而,MLMs、WMs和具身智能体并没有被完全考虑。此外,最近的具身机器人和模拟器的发展也被忽视了。为了解决这一快速发展领域中全面调查论文的缺乏,我们提出了这项全面调查,涵盖了代表性的具身机器人、模拟器和四个主要研究任务:具身感知、具身交互、具身智能体和仿真到现实的机器人控制。 总之,这项工作的主要贡献有三个方面。首先,它对具身AI进行了系统回顾,包括具身机器人、模拟器和四个主要研究任务:视觉主动感知、具身交互、具身智能体和仿真到现实的机器人控制。据我们所知,这是第一次从网络和物理空间对齐的角度,基于MLMs和WMs,对具身AI进行全面调查,提供了一个广泛的概述,并对现有研究进行了彻底的总结和分类。其次,它检查了具身AI的最新进展,为跨多个模拟器和数据集的当前工作提供了全面的基准测试和讨论。第三,它确定了未来研究的几个研究挑战和潜在方向,以实现具身AI的AGI。本文的其余部分组织如下。第2节介绍各种具身机器人。第3节描述通用和真实场景的模拟器。第4节介绍具身感知,包括主动视觉感知、3D视觉定位、视觉语言导航和非视觉感知。第5节介绍具身交互。第6节介绍具身智能体,包括具身多模态基础模型和具身任务规划。第7节介绍仿真到现实的适应性,包括具身世界模型、数据收集和训练以及具身控制。第8节,我们讨论有希望的研究方向。 II. 具身机器人 具身智能体积极与物理环境互动,包括广泛的具身形式,包括机器人、智能家电、智能眼镜、自动驾驶汽车等。其中,机器人作为最突出的具身形式之一。根据应用的不同,机器人被设计成各种形态,利用其硬件特性来执行特定任务,如图4所示。 A. 固定基机器人 如图4(a)所示,固定基机器人广泛应用于实验室自动化、教育培训和工业制造,因为它们体积小巧且操作精度高。这些机器人具有坚固的基座和结构,确保了操作期间的稳定性和高精度。它们配备了高精度传感器和执行器,能够实现微米级精度,使它们适合需要高精度和重复性的任务[21]。此外,固定基机器人具有高度的可编程性,允许用户适应各种任务场景,例如Franka(Franka Emika panda)[22]、Kuka iiwa(KUKA)[23]和Sawyer(Rethink Robotics)[24]。然而,固定基机器人也有一定的缺点。它们的固定基座设计限制了它们的操作范围和灵活性,阻碍了它们在大面积内的移动或调整位置,导致它们与人类和其他机器人的协作受到限制[21]。 B. 轮式机器人和履带式机器人 对于移动机器人,它们可以面对更复杂和多样化的应用场景。如图4(b)所示,轮式机器人以其高效的机动性而闻名,在物流、仓储和安全检查中得到广泛应用。轮式机器人的优点包括结构简单、成本相对较低、高能效和在平坦表面上快速移动的能力[21]。这些机器人通常配备有高精度传感器,如激光雷达和摄像头,使其能够自主导航和环境感知,使它们在自动化仓库管理和检查任务中非常有效,例如Kiva机器人(Kiva Systems)[25]和Jackal机器人(Clearpath Robotics)[26]。然而,轮式机器人在复杂地形和恶劣环境中的机动性有限,特别是在不平坦的地面上。此外,它们的载重能力和机动性也受到一定限制。与此不同,履带式机器人具有强大的越野能力和机动性,在农业、建筑和灾难恢复中显示出潜力,如图4(c)所示。履带系统提供了更大的地面接触面积,分散了机器人的重量,降低了在泥泞和沙滩等软质地形上沉陷的风险。此外,履带式机器人配备了强大的动力和悬挂系统,以在复杂地形上保持稳定性和牵引力[27]。因此,履带式机器人也用于军事等敏感领域。iRobot的PackBot是一种多才多艺的军事履带机器人,能够执行侦察、爆炸物处理和救援任务[28]。然而,由于履带系统的高摩擦,履带式机器人通常遭受低能效的困扰。此外,它们在平坦表面上的移动速度比轮式机器人慢,以及它们的灵活性和机动性也受到限制。 C. 四足机器人 四足机器人以其稳定性和适应性而闻名,非常适合复杂地形探索、救援任务和军事应用。受四足动物启发,这些机器人能够在不平坦的表面上保持平衡和机动性,如图4(d)所示。多关节设计使它们能够模仿生物运动,实现复杂的步态和姿势调整。高可调性使机器人能够自动调整其姿态以适应不断变化的地形,增强机动性和稳定性。传感系统,如激光雷达和摄像头,提供环境感知,使机器人能够自主导航并避免障碍[29]。几种类型的四足机器人被广泛使用:Unitree Robotics、Boston Dynamics Spot和ANYmal C。Unitree Robotics的Unitree A1和Go1以其成本效益和灵活性而闻名。A1[30]和Go1[31]具有强大的机动性和智能避障能力,适用于各种应用。Boston Dynamics的Spot以其卓越的稳定性和操作灵活性而闻名,通常用于工业检查和救援任务。它具有强大的负载能力和适应性,能够在恶劣环境中执行复杂任务[32]。ANYbotics的ANYmal C以其模块化设计和高耐用性而广泛用于工业检查和维护。ANYmal C配备了自主导航和远程操作能力,适合长时间的户外任务甚至极端的月球任务[33]。四足机器人的复杂设计和高制造成本导致了大量初始投资,限制了它们在成本敏感领域的使用。此外,它们在复杂环境中的电池续航能力有限,需要频繁充电或更换电池以进行长时间操作[34]。 D. 仿人机器人 仿人机器人以其类人形态而著称,在服务行业、医疗保健和协作环境中越来越普遍。这些机器人可以模仿人类的动作和行为模式,提供个性化服务和支持。它们灵巧的手设计使它们能够执行复杂和复杂的任务,与其他类型的机器人区分开来,如图4(e)所示。这些手通常具有多个自由度和高精度传感器,使它们能够模仿人类的抓握和操纵能力,在医疗手术和精密制造等领域尤为重要[35]。在当前的仿人机器人中,Atlas(Boston Dynamics)以其卓越的机动性和稳定性而闻名。Atlas可以执行跑步、跳跃和滚动等复杂动态动作,展示了仿人机器人在高度动态环境中的潜力[36]。HRP系列(AIST)在各种研究和工业应用中得到应用,设计重点是高稳定性和灵活性,使其在复杂环境中特别有效,尤其是与人类的协作任务[37]。ASIMO(Honda)是最知名的仿人机器人之一,能够行走、跑步、爬楼梯,以及识别面部和手势,使其适合接待和导游服务[38]。此外,一种小型社交机器人Pepper(Softbank Robotics)能够识别情绪并进行自然语言交流,在客户服务和教育环境中得到广泛应用[39]。然而,仿人机器人在保持复杂环境中的操作稳定性和可靠性方面面临挑战,由于其复杂的控制系统,包括健壮的双足行走控制和灵巧的手部抓握[40]。此外,基于液压系统的传统仿人机器人以其庞大的结构和高昂的维护成本为特点,正逐渐被电机驱动系统所取代。最近,特斯拉和Unitree Robotics推出了基于电机系统的仿人机器人。通过整合LLMs,仿人机器人预计将智能地处理各种复杂任务,填补制造业、医疗保健和服务行业中的劳动力缺口,从而提高效率和安全性[41]。 E. 生物模拟机器人 不同地,生物模拟机器人通过模拟自然生物体的高效运动和功能,在复杂和动态的环境中执行任务。通过模仿生物体的形式和运动机制,这些机器人在医疗保健、环境监测和生物研究等领域展示了巨大的潜力[21]。通常,它们使用柔性材料和结构来实现逼真、敏捷的运动,并最大限度地减少对环境的影响。重要的是,生物模拟设计可以通过模仿生物体的高效运动机制显著提高机器人的能效,使它们在能源消耗方面更加经济[42],[43]。这些生物模拟机器人包括鱼形机器人[44],[45],昆虫形机器人[46],[47]和软体机器人[48],如图4(f)所示。然而,生物模拟机器人面临几个挑战。首先,它们的设计和制造过程复杂且成本高,限制了大规模生产和广泛应用。其次,由于它们使用柔性材料和复杂的运动机制,生物模拟机器人在极端环境中的耐用性和可靠性受到限制。 III. 具身模拟器 具身模拟器对具身人工智能至关重要,因为它们提供了成本效益高的实验,通过模拟潜在的危险场景来确保安全,具有在不同环境中测试的可扩展性、快速原型制作能力、更广泛的研究社区的可访问性、控制环境进行精确研究、用于训练和评估的数据生成,以及用于算法比较的标准基准。为了使智能体能够与环境互动,有必要构建一个现实模拟的环境。这需要考虑环境的物理特性、对象的属性以及它们之间的互动。本节将介绍两部分常用的模拟平台:基于底层模拟的通用模拟器和基于真实场景的模拟器。 A. 通用模拟器 真实环境中的物理互动和动态变化是不可替代的。然而,在物理世界中部署具身模型通常会带来高昂的成本和面临众多挑战。通用模拟器提供了一个与物理世界紧密相似的虚拟环境,允许进行算法开发和模型训练,这在成本、时间和安全性方面提供了显著的优势。Isaac Sim [49] 是一个先进的机器人和人工智能研究的模拟平台。它具有高保真度的物理模拟、实时光线追踪、广泛的机器人模型库和深度学习支持。它的应用场景包括自动驾驶、工业自动化和人机交互。Gazebo [60] 是一个用于机器人研究的开源模拟器。它拥有丰富的机器人库,并与ROS紧密集成。它支持各种传感器的模拟,并提供众多预建的机器人模型和环境。它主要用于机器人导航和控制以及多机器人系统。PyBullet [52] 是Bullet物理引擎的Python接口。它易于使用,具有多样化的传感器模拟和深度学习集成。PyBullet支持实时物理模拟,包括刚体动力学、碰撞检测和约束求解。表II展示了10个通用模拟器的关键特性和主要应用场景。它们在具身人工智能领域各自提供独特的优势。研究人员可以根据具体的研究需求选择最合适的模拟器,从而加速具身人工智能技术的发展和应用。图5显示了通用模拟器的可视化效果。 B. 基于真实场景的模拟器 实现在家庭活动中的通用具身智能体一直是具身人工智能研究的主要焦点。这些具身智能体需要深入理解人类日常生活,并执行复杂的具身任务,如室内环境中的导航和交互。为了满足这些复杂任务的需求,模拟环境需要尽可能接近真实世界,这对模拟器的复杂性和现实性提出了高要求。这导致了基于真实世界环境的模拟器的创建。这些模拟器大多从真实世界收集数据,创建照片般逼真的3D资产,并使用像UE5和Unity这样的3D游戏引擎构建场景。丰富和真实的场景使基于真实世界环境的模拟器成为家庭活动中具身人工智能研究的首选。 AI2-THOR [61] 是由Allen人工智能研究所领导的基于Unity3D的室内具身场景模拟器。作为一个在真实世界中构建的高保真模拟器,AI2-THOR拥有丰富的交互场景对象,并且为它们分配了物理属性(如打开/关闭甚至冷/热)。AI2-THOR由两部分组成:iTHOR和RoboTHOR。iTHOR包含120个房间,分为厨房、卧室、浴室和客厅,拥有2000多个独特的交互对象,并支持多智能体模拟; RoboTHOR包含89个模块化公寓,这些公寓与真实世界中的真实场景相对应。到目前为止,已经有超过一百篇基于AI2-THOR的作品发表。Matterport 3D [62] 在R2R [63]中提出,通常用作大规模2D-3D视觉数据集。Matterport3D数据集包括90个建筑室内场景,包含10800个全景图和194400个RGB-D图像,并提供表面重建、相机姿态和2D和3D语义分割注释。 Matterport3D将3D场景转换为离散的“视点”,具身智能体在Matterport3D场景中的相邻“视点”之间移动。在每个“视点”,具身智能体可以获得一个1280x1024全景图像(18× RGB-D)。Matterport3D是最重要的具身导航基准之一。 Virtualhome [64] 是Puig等人带来的家庭活动具身AI模拟器。Virtualhome最特别的是其环境由环境图表示。环境图表示场景中的对象及其相关关系。用户也可以自定义和修改环境图以实现场景对象的自定义配置。这种环境图为具身智能体理解环境提供了一种新方式。与AI2-THOR类似,Virtualhome还提供了大量的交互对象,具身智能体可以与它们互动并改变它们的状态。Virtualhome的另一个特点是其简单易用的API。具身智能体的操作简化为“操作+对象”的格式。这一特点使Virtualhome在具身规划、指令分解等研究领域得到广泛应用。 Habitat [65] 是Meta推出的用于大规模人机交互的开源模拟器。基于Bullet物理引擎,Habitat实现了高性能、高速、并行3D模拟,并为具身智能体的强化学习提供了丰富的接口。Habitat具有极高的开放度。研究人员可以在Habitat中导入和创建3D场景,或者使用Habitat平台上丰富的开放资源进行扩展。Habitat有许多可定制的传感器,并支持多智能体模拟。来自开放资源或自定义的多个具身智能体(例如,人类和机器狗)可以在模拟器中合作,自由移动,并与场景进行简单交互。因此,Habitat正在吸引越来越多的关注。 与其它更关注场景的模拟器不同,SAPIEN [66] 更加关注模拟对象之间的交互。基于PhysX物理引擎,SAPIEN提供了细粒度的具身控制,可以通过ROS接口通过力和扭矩实现基于关节的控制。基于PartNet-Mobility数据集,SAPIEN提供了室内模拟场景,包含丰富的交互对象,并支持自定义资源的导入。与像AI2-THOR这样的模拟器不同,后者直接改变对象的状态,SAPIEN支持模拟物理交互,具身智能体可以通过物理动作控制对象的铰接部分,从而改变对象的状态。这些功能使SAPIEN非常适合训练具身AI的细粒度对象操作。 iGibson [67] [68] 是斯坦福推出的开源模拟器。构建在Bullet物理引擎上,iGibson提供了15个高质量的室内场景,并支持从其他数据集(如Gibson和Matterport3D)导入资产。作为一个面向对象的模拟器,iGibson为对象分配了丰富的可变属性,不仅限于对象的运动属性(姿态、速度、加速度等),还包括温度、湿度、清洁度、开关状态等。此外,除了其他模拟器中的标准深度和语义传感器外,iGibson还为具身智能体提供了激光雷达,使智能体能够轻松获取场景中的3D点云。关于具身智能体配置,iGibson支持连续动作控制和细粒度关节控制。这允许iGibson中的具身智能体在移动时与对象进行精细交互。 TDW [69] 由MIT推出。作为最新的具身模拟器之一,TDW结合了高保真视频和音频渲染、逼真的物理效果和单一灵活的控制器,在模拟环境的感知和交互方面取得了一定的进展。TDW将多个物理引擎集成到一个框架中,可以实现各种材料(如刚体、软体、织物和流体)的物理交互模拟,并在与对象交互时提供情境声音。因此,TDW与其他模拟器相比迈出了重要的一步。TDW支持部署多个智能代理,并为用户提供了丰富的API库和资产库,允许用户根据需要自由定制场景和任务,甚至是户外场景和相关任务。表III总结了上述所有基于真实场景的模拟器。 Sapien以其设计脱颖而出,专门用于模拟与门、橱柜和抽屉等关节对象的交互。VirtualHome以其独特的环境图而著称,这有助于基于自然语言描述的环境的高级具身规划。虽然AI2Thor提供了丰富的交互场景,但这些交互与VirtualHome中的交互类似,都是基于脚本的,缺乏真实的物理交互。这种设计足以满足不需要细粒度交互的具身任务。iGibson和TDW都提供了细粒度的具身控制和高度模拟的物理交互。 IV. 具身感知 未来的具身感知的“北斗星”是具身中心的视觉推理和社会智能[74]。与传统的图像中的对象识别不同,具有具身感知的智能体必须在物理世界中移动并与环境互动。这要求对3D空间和动态环境有更深入的理解。具身感知需要视觉感知和推理,理解场景中的3D关系,并基于视觉信息预测和执行复杂任务。 A. 主动视觉感知 主动视觉感知系统需要基本能力,如状态估计、场景感知和环境探索。如图7所示,这些能力已在视觉同时定位与地图构建(vSLAM)、3D场景理解(3D Scene Understanding)和主动探索(Active Exploration)等领域进行了广泛研究[118],[119]。这些研究领域有助于开发鲁棒的主动视觉感知系统,促进在复杂、动态环境中改进环境交互和导航。我们简要介绍这三个组成部分,并在表IV中总结了每个部分中提到的方法。 图7 展示了主动视觉感知的示意图。视觉SLAM和3D场景理解为被动视觉感知提供了基础,而主动探索可以为被动感知系统提供主动性。这三个要素相辅相成,对主动视觉感知系统至关重要。
B. 3D视觉定位 与传统的2D视觉定位不同,它在平面图像的限制下操作,3D视觉定位结合了深度、透视和对象之间的空间关系,为智能体与其环境的交互提供了更加强大的框架。3D视觉定位的任务是使用自然语言描述在3D环境中定位对象。 图8 展示了两阶段(上图)和一阶段(下图)3D视觉定位方法的示意图[141]。(a) 展示了3D视觉定位的示例。(b) 两阶段方法包括可能会在检测阶段忽视目标的稀疏提议和可能会在匹配阶段引起混淆的密集提议。(c) 一阶段方法可以根据语言描述的指导逐步选择关键点(蓝点 → 红点 → 绿点)。[129],[130]。如表V所总结,3D视觉定位的最新方法大致可以分为两类:两阶段和一阶段方法[145]。
C. 视觉语言导航(Visual Language Navigation, VLN) 视觉语言导航是具身人工智能(Embodied AI)的关键研究问题,旨在使智能体能够在未见环境中遵循语言指令进行导航。VLN要求机器人不仅要理解复杂多样的视觉观察,而且还要解释不同粒度的指令。VLN的输入通常由两部分组成:视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频,或者是一组历史当前观察图像。自然语言指令包括具身智能体需要到达的目标,或者是预期完成的任务。具身智能体必须使用上述信息从候选列表中选择一个或一系列动作来满足自然语言指令的要求。这个过程可以表示为: 其中Action是选择的动作或动作候选列表,O是当前观察,H是历史信息,I是自然语言指令。在VLN中最常用的指标有SR(成功率)、TL(轨迹长度)和SPL(由路径长度加权的成功率)。其中,SR直接反映了具身智能体的导航性能,TL反映了导航效率,SPL结合了两者以指示具身智能体的整体性能。下面,我们将VLN分为两部分进行介绍:数据集和方法。
基于记忆理解的。基于图的学习是记忆理解方法的重要组成部分。基于图的学习通常以图的形式表示导航过程,其中具身智能体在每个时间步骤获得的信息被编码为图的节点。具身智能体获得全局或部分导航图信息作为历史轨迹的表示。LVERG [168] 分别对每个节点的语言信息和视觉信息进行编码,设计了一个新的语言和视觉实体关系图来模拟文本和视觉之间的跨模态关系以及视觉实体之间的内模态关系。LM-Nav [172] 使用目标条件距离函数推断原始观察集之间的连接,并构建导航图,并从指令中提取地标,通过视觉语言模型将其与导航图的节点匹配。尽管HOP [173] 不是基于图学习,但其方法类似于图,要求模型对不同粒度的时间有序信息进行建模,从而实现对历史轨迹和记忆的深入理解。导航图将环境离散化,但同时理解和编码环境也很重要。FILM [171] 在导航过程中使用RGB-D观察和语义分割从3D体素逐步构建语义地图。VER [178] 通过2D-3D采样将物理世界量化为结构化的3D单元,提供细粒度的几何细节和语义。不同的学习方案探索了如何更好地利用历史轨迹和记忆。通过对抗学习,CMG [169] 在模仿学习和探索鼓励方案之间交替,有效地加强了对指令和历史轨迹的理解,缩短了训练和推理之间的差异。GOAT [177] 直接通过后门调整因果学习(BACL)和前门调整因果学习(FACL)训练无偏模型,并通过对视觉、导航历史及其与指令的组合进行对比学习,使智能体能够更充分地利用信息。RCM [170] 提出的增强跨模态匹配方法使用目标导向的外部奖励和指令导向的内部奖励进行全局和局部的跨模态定位,并通过自监督模仿学习从其自身的历史良好决策中学习。FSTT [175] 引入了TTA到VLN,并在两个时间步骤和任务的尺度上优化了模型的梯度和模型参数,有效提高了模型性能。在记忆理解方法中,大型模型的具体应用是理解历史记忆的表示,并基于其广泛的世界知识理解环境和任务。NaviLLM [174] 通过视觉编码器将历史观察序列集成到嵌入空间,将融合编码的多模态信息输入到大型模型并进行微调,在多个基准测试中达到了最先进的水平。NaVid [179] 在历史信息编码方面进行了改进,通过不同程度的池化在历史观察和当前观察之间实现了不同程度的信息保留。DiscussNav [176] 为大型模型专家分配了不同的角色,驱动大型模型在导航动作前进行讨论以完成导航决策,并在零样本VLN中取得了优异的性能。 基于未来预测的。基于图的学习也广泛应用于基于未来预测的方法中。BGGL [182] 和 ETPNav [185] 使用了类似的设计方法,设计了一个航点预测器,可以根据当前导航图节点的观察在连续环境中预测可移动路径点。他们的目标是将复杂环境中的导航从连续环境转移到离散环境中的节点到节点导航,从而弥合从离散环境到连续环境的性能差距。通过环境编码提高对未来环境的理解和感知也是预测和探索未来状态的研究方向之一。NvEM [181] 使用主题模块和参考模块从全局和局部视角对邻居视图进行融合编码。这实际上是对未来观察的理解和学习。HNR [184] 使用大规模预训练的分层神经辐射表示模型直接预测未来环境的视觉表示,而不是像素级图像,使用三维特征空间编码,并基于未来环境的表示构建可导航的路径树。他们从不同的层次预测未来环境,为导航决策提供有效的参考。一些强化学习方法也被应用于预测和探索未来状态。LookBY [180] 采用强化预测,使预测模块能够模仿世界并预测未来状态和奖励。这允许智能体直接将“当前观察”和“未来观察的预测”映射到动作上,在当时达到了最先进的性能。大型模型的丰富世界知识和零样本性能为基于未来预测的方法提供了许多可能性。MiC [183] 要求大型模型直接从指令中预测目标及其可能的位置,并通过场景感知的描述提供导航指令。这种方法要求大型模型充分发挥其“想象力”,并通过提示构建一个想象中的场景。此外,还有一些方法既从过去学习又为未来学习。MCR-Agent [186] 设计了一个三层动作策略,要求模型从指令中预测目标,预测目标的像素级掩模以进行交互,并从以前的导航决策中学习;OVLM [187] 要求大型模型为指令预测相应的操作和地标序列。在导航过程中,视觉语言地图将不断更新和维护,并将操作链接到地图上的航点。 D. 非视觉感知:触觉 触觉传感器为智能体提供了如纹理、硬度和温度等详细信息。对于相同的动作,从视觉和触觉传感器中学到的知识可能是相关和互补的,使机器人能够充分掌握手中的高精度任务。因此,触觉感知对于物理世界中的智能体至关重要,并且无疑增强了人机交互[188]–[190]。对于触觉感知任务,智能体需要从物理世界中收集触觉信息,然后执行复杂任务。在这一部分中,如图10所示,我们首先介绍现有的触觉传感器类型及其数据集,然后讨论触觉感知中的三个主要任务:估计、识别和操纵。 1) 传感器设计:人类触觉的原理是皮肤在触摸时发生形状变化,其丰富的神经细胞发送电信号,这也为设计触觉传感器提供了基础。触觉传感器设计方法可以分为三类:非视觉基础、视觉基础和多模态。非视觉基础触觉传感器主要使用电力和机械原理,主要注册基本的、低维的感官输出,如力量、压力、振动和温度[191]–[196]。其中一个著名的代表是BioTac及其模拟器[197][198]。基于视觉的触觉传感器基于光学原理。使用凝胶变形的图像作为触觉信息,基于视觉的触觉传感器如GelSight、Gelslim、DIGIT、9DTact、TacTip、GelTip和AllSight已被用于众多应用。模拟器如TACTO和Taxim也很受欢迎。最近的工作集中在降低成本[202]和集成到机器人手中[201][208][209]。多模态触觉传感器,受人类皮肤的启发,结合了压力、接近度、加速度和温度等多种模态信息,使用柔性材料和模块化设计。 2) 数据集:非视觉传感器的数据集主要由BioTac系列收集[197],包含电极值、力量向量和接触位置。由于任务主要是力量和抓取细节的估计,数据集中的对象通常是力量和抓取样本。基于视觉的传感器,拥有高分辨率的变形凝胶图像,更侧重于更高的估计、纹理识别和操纵。数据集由Geisight传感器、DIGIT传感器及其模拟器收集[199][201][202][206],包括家庭对象、野外环境、不同材料和抓取项目。由于图像信息可以很容易地与其他模态(图像、语言、音频等)对齐和绑定[14][210],具身代理中的触觉感知主要围绕基于视觉的传感器。我们介绍了十个主要的触觉数据集,总结在表VIII中。 3) 方法:触觉感知有众多应用,可以分为三类:估计、精确的机器人操纵和多模态识别任务。 a) 估计:早期的估计工作主要集中在基本算法的形状、力量和滑动测量[202][220][221]。研究人员简单地使用阈值或应用卷积神经网络来解决这些任务,基于触觉图像的颜色和标记在不同帧中的分布变化。估计工作的重点是第二阶段,触觉图像的生成和对象的重建。触觉图像的生成[222]–[225]旨在从视觉数据生成触觉图像。起初应用了深度学习模型,输入RGB-D图像并输出触觉图像[222][223]。最近,随着图像生成的快速发展,Higuera等人[224]和Yang等人[225]应用了扩散模型进行触觉生成,并且表现良好。对象的重建可以分为2D重建[226][227]和3D重建[202][219][228]–[241]。2D重建主要关注对象的形状和分割,而3D重建关注表面和姿态,甚至是完整的场景感知。任务首先采用了数学方法、自编码器方法和神经网络方法来融合视觉(有时是点云)和触觉特征。最近,研究人员如Comi等人[236]和Dou等人[219]在触觉重建工作中实现了基于神经辐射场(NeRF)和3D高斯溅射(3DGS)的新方法。 b) 机器人操纵:在触觉任务中,弥合仿真与现实之间的差距至关重要。提出了强化学习和基于GAN的方法来解决准确、及时的机器人操纵任务中的变异问题。 强化学习方法。Visuotactile-RL[242]为现有RL方法提出了几种方法,包括触觉门控、触觉数据增强和视觉退化。Rotateit[243]是一个系统,它利用多模态感官输入实现基于指尖的对象旋转,沿多个轴进行。它通过网络训练强化学习策略,使用特权信息,并启用在线推理。[244]提出了一种使用触觉感知进行目标推动的深度RL方法。它提出了一个目标条件公式,允许无模型和基于模型的RL获得推动对象到目标的准确策略。AnyRotate[245]专注于手内操纵。它是一个使用密集特征的触觉反馈进行重力不变多轴手内对象旋转的系统,在模拟中构建了连续的接触特征表示,以提供触觉反馈,用于训练策略,并引入了一种通过训练观察模型来执行零样本策略迁移的方法。 基于GAN的方法。ACTNet[246]提出了一种无监督对抗性领域适应方法,以缩小像素级触觉感知任务的领域差距。引入了一种自适应相关注意力机制来改进生成器,使其能够利用全局信息并专注于显著区域。然而,像素级领域适应导致误差累积、性能下降、结构复杂性和训练成本增加。相比之下,STR-Net[247]提出了一种针对触觉图像的特征级无监督框架,缩小了特征级触觉感知任务的领域差距。此外,一些方法专注于仿真到现实。例如,Tactile Gym 2.0[248]。然而,由于其复杂性和高成本,它在实际应用中具有挑战性。 c) 识别: 触觉表示学习侧重于材料分类和多模态理解,可以分为两类:传统方法和大型语言模型(LLMs)及视觉-语言模型(VLMs)方法。 传统方法: 为了增强触觉表示学习,采用了多种传统方法。自动编码器框架在开发紧凑的触觉数据表示方面发挥了重要作用。Polic等人[249]使用卷积神经网络自动编码器对基于光学的触觉传感器图像进行降维。Gao等人[250]创建了一个受监督的循环自动编码器来处理异构传感器数据集,而Cao等人[251]创建的TacMAE使用了一个掩蔽自动编码器来处理不完整的触觉数据。Zhang等人[252]引入了MAE4GM,这是一个整合视觉和触觉数据的多模态自动编码器。由于触觉作为其他模态的补充,联合训练方法被用来融合多个模态。Yuan等人[253]使用包括深度、视觉和触觉数据的模态训练CNN。同样,Lee等人[254]使用了变分贝叶斯方法来处理力传感器系列和末端执行器指标等模态。为了更好地学习表示,自监督方法如对比学习也是将模态结合在一起的关键技术。在对比方法的研究中,Lin等人[255]将触觉输入简单地与多个视觉输入配对,而Yang等人[256]采用了视觉触觉对比多视图特征。Kerr等人[215]使用了InfoNCE损失,Guzey等人[257]使用了BYOL。这些传统方法为触觉表示学习奠定了坚实的基础。 LLMs和VLMs方法: LLM和VLM最近表现出对跨模态交互的惊人理解,并展示了强大的零样本性能。最近的工作,如Yang等人[189]、Fu等人[218]和Yu等人[258],通过对比预训练方法对触觉数据进行编码和与视觉和语言模态对齐。然后,像LLaMA这样的大型模型将被应用,使用微调方法来适应触觉描述等任务。LLM和VLM技术的出现进一步推进了该领域,使得跨模态触觉表示更加全面和健壮。 4) 困难:a) 不同传感器类型的缺陷:传统传感器提供简单和低维数据,对多模态学习构成挑战。基于视觉的传感器和电子皮肤虽然高度准确,但成本昂贵。b) 数据获取挑战:收集数据,特别是同时收集触觉和视觉数据,尽管在开发简化收集设备方面取得了一些进展,但仍然困难。c) 标准不一致:触觉传感器以不一致的标准和原则运作,阻碍了大规模学习和限制了公共数据集的有用性。需要标准化和广泛的数据集。 V. 具身交互 具身交互任务指的是智能体在物理或模拟空间中与人类和环境进行交互的场景。典型的具身交互任务包括具身问答(EQA)和具身抓取。 A. 具身问答 (Embodied Question Answering) 对于EQA任务,智能体需要从第一人称视角探索环境,以收集回答给定问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境,还要决定何时停止探索以回答问题。现有的工作集中在不同类型的问题上,如图11所示。在这一部分中,我们将介绍现有的数据集,讨论相关的方法,描述用于评估模型性能的指标,并解决这项任务的剩余限制。 1) 数据集:在真实环境中进行机器人实验通常受到场景和机器人硬件的限制。作为虚拟实验平台,模拟器为构建具身问答数据集提供了合适的环境条件。在模拟器中创建的数据集上训练和测试模型显著降低了实验成本,并提高了在真实机器上部署模型的成功率。我们简要介绍了几个具身问答数据集,总结在表IX中。EQA v1 [259] 是为EQA设计的首个数据集。它建立在House3D [269] 模拟器中基于SUNCG数据集 [95] 的合成3D室内场景上,包含四种类型的问题:位置、颜色、颜色房间和介词。它拥有超过5000个问题,分布在750多个环境中。这些问题是通过功能程序执行构建的,使用模板选择和组合基本操作。与EQA v1类似,MT-EQA [260] 也是在House3D中使用SUNCG构建的,但它将单对象问答任务扩展到了多对象设置。设计了六种类型的问题,涉及多个对象之间的颜色、距离和大小比较。数据集包含588个环境中的19,287个问题。 2) 方法:具身问题回答任务主要涉及导航和问题回答子任务,实现方法大致分为两类:基于神经网络的方法和基于大型语言模型(LLMs)/视觉-语言模型(VLMs)的方法。 神经网络方法: 在早期工作中,研究人员主要通过构建深度神经网络来解决具身问题回答任务。他们使用模仿学习、强化学习等技术来训练和微调这些模型,以提高性能。Das等人[259]首次提出了EQA任务,其中智能体由四个主要模块组成:视觉、语言、导航和回答。这些模块主要使用传统的神经网络构建块:卷积神经网络(CNN)和循环神经网络(RNN)。它们分两个阶段进行训练。最初,导航和回答模块独立地在自动生成的专家导航演示上使用模仿或监督学习进行训练。随后,在第二阶段,使用策略梯度对导航架构进行微调。一些后续工作[274],[275]保留了Das等人[259]提出的问题回答模块,并改进了模型。此外,Wu等人[275]提出将导航和QA模块整合到统一的SGD训练流程中进行联合训练,从而避免了同时使用深度强化学习来训练分开训练的导航和问题回答模块。还有一些工作尝试增加问题回答任务的复杂性和完整性。从任务单一性的角度来看,一些工作[260],[276]将任务扩展到包括多个目标和多智能体,分别要求模型通过特征提取和场景重建等方法存储和整合智能体探索过程中获得的信息。考虑到智能体与动态环境的交互,Gordon等人[262]引入了分层交互记忆网络。控制权在规划器和执行任务的低级控制器之间交替,在此过程中使用了一个以自我为中心的空间GRU(esGRU)来存储空间记忆,使智能体能够导航并提供答案。之前工作中的一个限制是智能体无法使用外部知识回答复杂问题,并且缺乏对探索过的场景部分的知识。为了解决这个问题,Tan等人[265]提出了一个框架,利用神经程序合成方法和从知识和3D场景图中转换的表格,允许动作规划器访问与对象相关的信息。此外,还使用了基于蒙特卡洛树搜索(MCTS)的方法来确定智能体下一步移动的位置。 LLMs/VLMs方法: 近年来,LLMs和VLMs不断取得进展,并在各个领域展示了卓越的能力。因此,研究人员尝试将这些模型应用于解决具身问题回答任务,而无需任何额外的微调。 Majumdar等人[266]探索了使用LLMs和VLMs进行情景记忆EQA(EM-EQA)任务和活跃EQA(AEQA)任务。对于EM-EQA任务,他们考虑了盲目LLMs、具有情景记忆语言描述的苏格拉底LLMs、具有构建场景图描述的苏格拉底LLMs,以及处理多个场景帧的VLMs。AEQA任务扩展了EM-EQA方法,增加了基于前沿的探索(FBE)[277],用于问题无关的环境探索。一些其他工作[267],[278]也采用了基于前沿的探索方法来识别后续探索的区域,并构建语义地图。他们使用一致性预测或图像-文本匹配提前结束探索,以避免过度探索。Patel等人[279]强调了任务的问题回答方面。他们利用多个基于LLM的智能体探索环境,并使它们能够独立回答“是”或“否”的问题。这些个别回答被用来训练一个中央答案模型,负责聚合回答并生成健壮的答案。 3) 指标: 性能通常基于两个方面进行评估:导航和问题回答。在导航中,许多工作遵循了Das等人[259]介绍的方法,并使用指标如完成导航时到达目标对象的距离(dT)、从初始位置到最终位置目标距离的变化(d∆)以及在情节中的任何时候到达目标的最小距离(dmin)来评估模型的性能。它们在距离目标10、30或50个动作时进行测试。还有一些工作基于指标如轨迹长度、目标对象的交并比分数(IoU)等进行测量。对于问题回答,评估主要涉及答案列表中真实答案的平均排名(MR)和答案的准确性。最近,Majumdar等人[266]引入了基于LLM的聚合正确性指标(LLM-Match)的概念,以评估开放词汇答案的准确性。此外,他们通过将智能体路径的规范化长度作为权重纳入正确性指标,来评估效率。 VI. 具身智能体智能体被定义为能够感知其环境并采取行动以实现特定目标的自主实体。最近在多模态大型模型(MLMs)方面的进展进一步扩展了智能体在实际场景中的应用。当这些基于MLM的智能体被具身化到物理实体中时,它们能够有效地将它们的能力从虚拟空间转移到物理世界,从而成为具身智能体[298]。图13显示了具身智能体的时间线概述。为了使具身智能体能够在信息丰富且复杂的现实世界中操作,具身智能体已经被开发出强大的多模态感知、交互和规划能力,如图14所示。为了完成一个任务,具身智能体通常涉及以下过程:1)将抽象和复杂的任务分解为特定的子任务,这被称为高水平的具身任务规划。2)通过有效利用具身感知和具身交互模型或利用基础模型的策略功能逐步实施这些子任务,称为低水平的具身动作规划。值得注意的是,任务规划涉及行动前的思考,因此通常被认为是在网络空间中进行的。相比之下,动作规划必须考虑与环境的有效交互以及将这些信息反馈给任务规划者以调整任务规划。因此,对具身智能体来说,将其能力从网络空间对齐和概括到物理世界至关重要。 A. 具身多模态基础模型 具身智能体需要在视觉上识别其环境,通过听觉理解指令,并理解自身的状态,以实现复杂的交互和操作。这要求一个模型整合多种感官模态和自然语言处理能力,通过综合不同类型的数据来增强智能体的理解和决策。因此,出现了具身多模态基础模型。最近,Google DeepMind发现利用基础模型和大型、多样化的数据集是最佳策略。他们基于机器人变换器(RT)[11]开发了一系列工作,为未来具身智能体研究提供了重要见解。在基础机器人模型方面取得了显著进展,从最初的SayCan [299]开始,该模型使用三个独立的模型进行规划、可承受性和低级策略。Q-Transformer [300]后来统一了可承受性和低级策略,PaLM-E [301]集成了规划和可承受性。然后,RT-2 [302]通过将所有三个功能整合到一个单一模型中,实现了突破,使联合扩展和正向迁移成为可能。这代表了机器人基础模型的显著进步。RT-2引入了视觉-语言-动作(VLA)模型,具有“思维链”推理能力,能够进行多步骤的语义推理,如在各种情境中选择替代工具或饮料。最终,RT-H [4]实现了具有动作层次结构的端到端机器人变换器,以细粒度推理任务规划。 为了解决具身模型的泛化限制,Google与33个领先的学术机构合作,创建了全面的开放X-Embodiment数据集[303],整合了22种不同的数据类型。使用这个数据集,他们训练了通用大型模型RT-X。这也促进了更多的开源VLMs参与机器人领域,如基于LLaVA的EmbodiedGPT [304]和基于FLAMINGO的RoboFlamingo [305]。尽管开放X-Embodiment提供了大量数据集,但考虑到具身机器人平台的快速发展,构建数据集仍然是一个挑战。为了解决这个问题,AutoRT [306]创建了一个系统,用于在新环境中部署机器人以收集训练数据,利用LLMs通过更全面和多样化的数据来增强学习能力。 另外,基于变换器的架构面临效率问题,因为具身模型需要长上下文,包括来自视觉、语言和具身状态的信息,以及与当前执行任务相关的内存。例如,尽管RT-2表现出色,但其推理频率仅为1-3Hz。已经做出了一些努力,如通过量化和蒸馏部署模型。此外,改进模型框架是另一种可行的方法。SARA-RT [307]采用了更高效的线性注意力,而RoboMamba [308]利用了更适合长序列任务的mamba架构,使其推理速度比现有的机器人MLMs快七倍。基于生成模型的RT擅长高层次任务理解和规划,但在低层次动作规划方面存在局限性,因为生成模型无法精确生成动作参数以及高层次任务规划与低层次动作执行之间的差距。为了解决这个问题,Google引入了RT-Trajectory [309],通过自动添加机器人轨迹为学习机器人控制策略提供低层次视觉线索。同样,基于RT-2框架,机器人变换器动作层次结构(RT-H)通过中间语言动作将高层次任务描述与低层次机器人动作联系起来[4]。此外,VLA模型仅在与VLMs相关的高层次规划和可承受性任务中表现出能力,它们未能在低层次物理交互中展示新技能,并受到其数据集中技能类别的限制,导致动作笨拙。未来的研究应该将强化学习整合到大型模型的训练框架中,以提高泛化能力,使VLA模型能够在现实世界环境中自主学习和优化低层次物理交互策略,从而更灵活、更准确地执行各种物理动作。 B. 具身任务规划 如前所述,对于任务“把苹果放在盘子上”,任务规划器将其分解为子任务“找到苹果,拿起苹果”和“找到盘子”、“放下苹果”。由于如何找到(导航任务)或拿起/放下动作(抓取任务)不在任务规划的范围之内。这些动作通常在模拟器中预定义或使用预训练策略模型在真实场景中执行,例如使用CLIPort [294]进行抓取任务。传统的具身任务规划方法通常基于显式规则和逻辑推理。例如,使用符号规划算法如STRIPS [310]和PDDL [311],以及搜索算法如MCTS [312]和A* [313]来生成计划。然而,这些方法通常依赖于预定义的规则、约束和启发式,这些规则是固定的,可能无法很好地适应环境的动态或不可预见的变化。随着LLMs的普及,许多工作尝试使用LLMs进行规划或将传统方法与LLMs结合,利用它们内部丰富的世界知识进行推理和规划,无需手工定义,大大增强了模型的泛化能力。
C. 具身动作规划 第VI-B节讨论了任务规划和动作规划的定义和区别。显然,动作规划必须解决现实世界的不确定性,因为任务规划提供的子任务粒度不足以指导智能体在环境互动中。通常,智能体可以通过两种方式实现动作规划:1) 使用预训练的具身感知和具身干预模型作为工具,通过API逐步完成任务规划指定的子任务,2) 利用VLA模型的固有能力派生动作规划。此外,动作规划器的执行结果反馈给任务规划器以调整和改进任务规划。
VII. 仿真到现实适应性(Sim-to-Real Adaptation) 在具身人工智能中,仿真到现实适应性指的是将学习能力或行为从模拟环境(网络空间)转移到现实世界场景(物理世界)的过程。它涉及验证和改进在模拟中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现出鲁棒性和可靠性。为了实现仿真到现实适应性,具身世界模型、数据收集和训练方法以及具身控制算法是三个基本组成部分。 A. 具身世界模型(Embodied World Model) 仿真到现实涉及创建与现实世界环境非常相似的模拟世界模型,帮助算法在转移时更好地泛化。世界模型方法旨在构建一个端到端的模型,通过生成或预测的方式,将视觉映射到动作,甚至任何输入到任何输出,以做出决策。这类世界模型与VLA模型的最大区别在于,VLA模型首先是在大规模互联网数据集上训练以获得高水平的紧急能力,然后与现实世界的机器人数据共同微调。相比之下,世界模型是从物理世界数据从头开始训练的,随着数据量的增加逐渐发展出高级能力。然而,它们仍然是低级的物理世界模型,有点像人类神经反射系统的工作机制。这使它们更适合于输入和输出相对结构化的场景,如自动驾驶(输入:视觉,输出:油门、刹车、方向盘)或物体排序(输入:视觉、指令、数值传感器,输出:抓取目标物体并将其放置在目标位置)。它们不太适合于泛化到结构化、复杂的具身任务。在物理模拟领域,学习世界模型是有希望的。与传统的模拟方法相比,它提供了显著的优势,例如能够在不完整信息下推理交互、满足实时计算需求,并随着时间的推移提高预测准确性。这种世界模型的预测能力至关重要,它使机器人能够发展出在人类世界中操作所需的物理直觉。如图15所示,根据世界环境的学习流程,它们可以分为基于生成的方法、基于预测的方法和知识驱动的方法。我们在表XI中简要总结了提到的方法。
B. 数据收集和训练(Data Collection and Training) 对于仿真到现实适应性,高质量数据非常重要。传统的数据收集方法涉及昂贵的设备、精确的操作,并且耗时、劳动密集,通常缺乏灵活性。最近,一些高效且成本效益高的方法被提出用于高质量演示数据收集和训练。本节将讨论真实世界和模拟环境中数据收集的各种方法。图16展示了真实世界和模拟环境中的演示数据。
C. 具身控制(Embodied Control) 具身控制通过与环境的交互学习,并使用奖励机制优化行为以获得最优策略,从而避免了传统物理建模方法的缺点。具身控制方法可以分为两类:1) 深度强化学习(DRL)。DRL可以处理高维数据并学习复杂的行为模式,使其适合于决策和控制。混合和动态策略梯度(HDPG)[371]被提出用于双足运动,允许控制策略根据多个标准动态同时优化。DeepGait [372]是一个神经网络策略,用于地形感知运动,它结合了基于模型的运动规划和强化学习的方法。它包括一个地形感知规划器,用于生成步态序列和基础运动,引导机器人朝目标方向前进,以及一个步态和基础运动控制器,用于在保持平衡的同时执行这些序列。规划器和控制器都使用神经网络函数逼近器进行参数化,并使用深度强化学习算法进行优化。2) 模仿学习。DRL的一个缺点是需要大量数据来自众多试验。为了解决这个问题,引入了模仿学习,旨在通过收集高质量的演示来最小化数据使用。为了提高数据效率,提出了Offline RL + Online RL来降低交互成本并确保安全。首先使用离线RL从静态的、预先收集的大型数据集中学习策略。然后将这些策略部署在真实环境中进行实时交互和探索,并根据反馈进行调整。人类演示的代表性模仿学习方法是ALOHA [373]和Mobile ALOHA [359]。尽管具身AI包括高级算法、模型和规划模块,但其最基础和最关键的组成部分是具身控制。因此,必须考虑如何控制物理实体并赋予它们物理智能。具身控制与硬件密切相关,例如控制关节运动、末端执行器位置和行走速度。对于机器人臂,了解末端执行器的位置,如何规划关节轨迹以将手臂移动到目标?对于仿人机器人,了解运动模式,如何控制关节以实现目标姿势?这些是需要解决的关键问题。一些工作集中在机器人控制上,增强了机器人动作的灵活性。[374]提出了一个基于视觉的全身控制框架。通过连接一个机器人臂和一个机器狗,利用所有自由度(腿上有12个关节,臂上有6个关节,夹持器上有1个),它跟踪机器狗的速度和机器人臂的末端执行器位置,实现了更灵活的控制。一些工作[375],[376]采用传统方法控制双足机器人行走。MIT的Cheetah 3 [377]、ANYmal [378]和Atlas [379]使用了稳健的行走控制器来管理机器人。这些机器人可以用于更敏捷的运动任务,如跳跃或克服各种障碍[380]–[384]。其他工作[385],[386]专注于仿人机器人的控制,以执行各种动作,模仿人类行为。图18展示了一些例子。具身控制整合了RL和仿真到现实技术,通过环境交互优化策略,使未知领域的探索成为可能,可能超越人类能力,并适应非结构化环境。虽然机器人可以模仿许多人类行为,但有效的任务完成通常需要基于环境反馈的RL训练。最具挑战性的场景包括接触密集型任务,其中操纵需要根据反馈进行实时调整,例如被操纵对象的状态、变形、材料和力量。在这种情况下,RL是不可或缺的。在MLM时代,这些模型具有对场景语义的泛化理解,为RL提供了强大的奖励函数。此外,RL对于将大型模型与预期任务对齐至关重要。未来,在预训练和微调之后,仍然需要RL来与物理世界对齐,确保在真实世界环境中有效部署。 VIII. 挑战和未来方向 尽管具身AI取得了快速进展,但它面临几个挑战,并提出了激动人心的未来方向。高质量机器人数据集:获取足够的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗费资源。仅依赖模拟数据会加剧仿真到现实的差距问题。创建多样化的真实世界机器人数据集需要各种机构之间密切而广泛的合作。此外,开发更现实和高效的模拟器对于提高模拟数据的质量至关重要。当前的工作RT-1 [11]使用基于机器人图像和自然语言命令的预训练模型。RT-1在导航和抓取任务中取得了良好的结果,但获取真实世界机器人数据集非常具有挑战性。为了构建能够在机器人学中跨场景和跨任务应用的通用具身模型,必须构建大规模数据集,利用高质量的模拟环境数据协助真实世界数据。高效利用人类演示数据:高效利用人类演示数据涉及利用人类执行的动作和行为来训练和改进机器人系统。这个过程包括收集、处理和从人类执行机器人预期学习的任务的大型、高质量的数据集中学习。当前的工作R3M [387]使用动作标签和人类演示数据学习具有高成功率的通用表示,但复杂任务的效率仍需提高。因此,重要的是有效利用大量未结构化、多标签和多模态的人类演示数据,结合动作标签数据,训练能够在短时间内学习各种任务的具身模型。通过高效利用人类演示数据,机器人系统可以实现更高的性能和适应性,使它们更有能力在动态环境中执行复杂任务。复杂环境的认知:复杂环境的认知指的是具身智能体在物理或虚拟环境中感知、理解和导航复杂真实世界环境的能力。基于广泛的常识知识,Say-Can [299]利用预训练的LLM模型的任务分解机制,该机制严重依赖大量常识知识进行简单任务规划,但缺乏对复杂环境中长期任务的理解。对于非结构化开放环境,当前的工作通常依赖于使用广泛常识知识的预训练LLM模型的任务分解机制进行简单任务规划,而缺乏特定场景理解。增强知识转移和泛化能力在复杂环境中至关重要。一个真正多功能的机器人系统应该能够理解和执行跨越多样化和未见场景的自然语言指令。这需要开发适应性强、可扩展的具身智能体架构。长期任务执行:执行单个指令通常意味着机器人需要执行长期任务,例如命令“清洁厨房”,这涉及重新排列物体、扫地、擦桌子等活动。成功完成这些任务需要机器人能够计划并在较长时间内执行一系列低级动作。虽然当前的高级任务规划器已经显示出初步的成功,但它们在多样化的场景中往往因为缺乏针对具身任务的调整而不足。解决这一挑战需要开发配备有强大感知能力和丰富常识知识的高效规划器。因果关系发现:现有的数据驱动具身智能体基于数据内在的相关性做出决策。然而,这种建模方法不允许模型真正理解知识、行为和环境之间的因果关系,导致策略存在偏见。这使得确保它们能够以可解释、鲁棒和可靠的方式在真实世界环境中操作变得困难。因此,重要的是让具身智能体由世界知识驱动,能够进行自主因果推理。通过交互和学习理解世界,并通过推理进一步增强多模态具身智能体在复杂真实世界环境中的适应性、决策可靠性和泛化能力。对于具身任务,需要通过交互指令和状态预测建立跨模态的时空因果关系[388]。此外,智能体需要理解对象的可承受性,以实现适应性任务规划和动态场景中的长期自主导航。为了优化决策,需要结合反事实和因果干预策略[389],从反事实和因果干预的角度追踪因果关系,减少探索迭代,并优化决策。基于世界知识构建因果图,并通过主动因果推理驱动仿真到现实转移,将为具身AI形成一个统一框架。 持续学习: 在机器人应用中,持续学习[390]对于在多样化环境中部署机器人学习策略至关重要,但目前这一领域尚未充分探索。尽管一些近期研究已经考察了持续学习的子主题——如增量学习、快速运动适应和人在环路学习——但这些解决方案通常为单一任务或平台设计,并未考虑基础模型。开放的研究问题和可行的方法包括:1) 在微调最新数据时混合不同比例的先前数据分布,以减轻灾难性遗忘[391];2) 开发从先前分布或课程中高效原型,用于学习新任务时的任务推理;3) 提高在线学习算法的训练稳定性和样本效率;4) 确定将大容量模型无缝整合到控制框架中的原则方法,可能是通过分层学习或慢速-快速控制,以实现实时推理。 统一评估基准: 尽管存在许多评估低级控制策略的基准,但它们通常在评估的技能方面有显著差异。此外,这些基准中包含的对象和场景通常受到模拟器限制。为了全面评估具身模型,需要基准能够使用现实模拟器涵盖一系列多样化的技能。关于高级任务规划器,许多基准侧重于通过问答任务评估规划能力。然而,更理想的方法包括评估高级任务规划器和低级控制策略一起执行长期任务,并测量成功率,而不是仅依赖于规划器的孤立评估。这种综合方法为评估具身AI系统的能力提供了更全面的视角。 IX. 结论 具身AI允许智能体感知、感知并通过网络空间和物理世界与各种对象互动,这对其实现通用人工智能(AGI)至关重要。本调查广泛回顾了具身机器人、模拟器、四个代表性的具身任务:视觉主动感知、具身交互、具身智能体和仿真到现实机器人控制,以及未来的研究方向。对具身机器人、模拟器、数据集和方法的比较总结为最近在具身AI领域的发展提供了清晰的图景,这将极大地有利于未来沿着这一新兴且有前景的研究方向进行的研究。
参考资料 |
|
来自: taotao_2016 > 《AI》