分享

具身智能产业: 技术模型分析、市场展望、相关产业及公司深度梳理

 xiaopanglang 2024-02-19 发布于山东

特斯拉2023年股东会上,马斯克表示,人形机器人将是今后特斯拉主要的长期价值来源,“如果人形机器人和人的比例是2比1左右,那么人们对机器人的需求量可能是100亿乃至200亿个,远超电动车的数量”。英伟达创始人黄仁勋在ITF World 2023半导体大会上也表示,AI下一个浪潮将是“具身智能”。

“具身智能”意指有身体并支持物理交互的智能体,人形机器人为标杆产品。具身智能,首先需要听懂人类语言,分解任务、规划子任务,移动中识别物体,与环境交互,最终完成任务。人形机器人很好的契合了具身智能的要求,有望成为标杆应用。

围绕具身智能,我们从下面几方面展开讨论:具身智能的概念是如何定义的,具体方案模块是如何设置的,发展历程又是怎样的,相关技术及模型有哪些,可能受益的相关公司都有哪些。希望通过这些问题的探讨,让我们对于具身智能有个浅显的了解。

(更多投研内容可关注公众号《 投研锋向 》加入社群,体验更多0预期差纪要信息)

01

具身智能概述

1.概念

具身智能(Embodied Intelligence)是指一种具备自主决策和行动能力的机器智能,它可以像人类一样感知和理解环境,通过自主学习和适应性行为来完成任务。要实现具身智能与环境实时交互并完成自主做事的功能,其所涉及到的主要环节可以抽象理解为包括感知、传输、决策、执行。

感知层类似人的五官,负责收集环境信息,在单一场景下机器或许可以通过感知来绕过决策控制,比如1986年,美国著名机器人制造专家罗德尼·布鲁克斯(Rodney Brooks)研发了第一个基于感知行为模式的轮式机器人,不需要中枢控制可以实现避让、前进和平衡等功能,但是如果想要让机器实现与人类互动并完成多样化指令要求,它面对的可能是结合了语言、图像等多个模态的复杂信息,决策层的多模态处理就显得不可或缺。

决策层作为核心处理枢纽,需要类似人类大脑的处理能力,满足机器在理解指令、分解任务、规划子任务、识别物体完成人机交互和环境交互等方面的需求,多维度的人机交互在传统的机器人领域是一大难题,因而当下的研究更多体现在特定指令下对于环境交互的探索,也即如何更智能地执行特定物理任务上。而ChatGPT等AI大模型的快速突破提供了新的思路,有望充当机器人的大脑与人类进行多维度交互,从而更为出色完成任务。

此外,随着感知和决策的复杂化,传输层对于的实时性的要求日益提升,从而对传输速率和边缘计算等提出更高的需求。

2.PIE方案是实现具象智能的解决方案之一

PIE方案是实现具象智能的解决方案之一,可分为三个模块——具身感知(Perception)、具身想象(Imagination)和具身执行(Execution)。

具象感知(Perception):交互感知,自动挖掘、定义具象概念。可以通过两种方式实现:1)全感知:构建一个大规模的数据库,包含我们所操作的这个世界模型(world model)的各种各样的知识,跟操作相关的知识,包括外形、结构、语义,以及48个真实世界关节体类别等;2)具身交互感知:各种内容交互的感觉带来的全新感知,通过牛顿定律和数据驱动的结合,不断修正误差从而得到正确的模型。

具象想象(Imagination):自动具身任务模拟,仿真引擎构建。通过名为RFUniverse的仿真引擎,这个仿真引擎支持7种物体(比如关节可移动的、柔性的、透明的、流体的……)、87种原子操作的仿真。当研究人员把物体输入,模型会在仿真引擎中进行想象操作。

具身执行(Execution):多传感器合作,自意识执行误差。研究人员通过构建一个元操作库,调用各种元操作来解决执行的问题。通过半自动的data collection and labeling,能够非常快速地产生20亿个抓取点位,再进行训练,把「grasp」这个问题分解为where(去哪里抓)和how(怎么去抓)的贝叶斯问题,分别估测网络。

02

具身智能发展历程

1.“具身智能”的机器人是人工智能的终极形态

1950年,图灵在他的论文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。具身智能(Embodied AI)指的是,有身体并支持物理交互的智能体,如智能服务机器人、自动驾驶汽车等,具身智能机器人指的是,像人一样能够与环境交互感知、自助规划、决策、行动、执行任务的机器人。它包含人工智能领域几乎所有的技术,包括机器视觉、自然语言理解、认知和推理、机器人学、博弈伦理、机器学习等,横跨多个学科方向,是人工智能的集大成者。

2.现有机器人难以适应现实世界,是因为其学习模式为“旁观型学习方式”

目前大部分深度学习模型训练使用的数据来自于互联网(InternatAI)而非现实世界第一人称视角,只能学习到数据中心的固定模式,但无法在真实世界中直接学习,因此也无法适应真实世界。现实当中的人类是通过对现实世界的观察、互动、反馈等学习,大脑中的部分认知依赖物理身体与世界持续不断的交互,因此学习到越来越多的技能来适应环境。

3.具身智能是通往通用人工智能的关键钥匙,赋予机器人实践学习的能力

斯坦福大学的李飞飞教授称“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”上海交通大学的卢策吾教授通过猫学习走路来做出形象比喻:“如图中的猫一样,主动猫是具身的智能,它可以在环境中自由行动,从而学习行走的能力。被动猫只能被动的观察世界,最终失去了行走能力。”实践性学习方法与旁观型学方法的不同点在于,实践性学习是机器人像人一样,通过物理身体与环境的互动来学习,可以主动感知或者执行任务的方法来感知世界,对世界进行建模,增强对世界的认知和锻炼行动能力。

4.具身智能更侧重“交互”

上世纪以来,具身智能的研究已广泛拓展到教育、材料、能源等领域,成为未来新一代人工智能理论与应用突破的一个重要窗口。麻省理工学院成立了名为“具身智能”的研究团队进行相关领域的研究。

清华大学刘华平教授等人在《基于形态的具身智能研究:历史回顾与前沿进展》中总结了海内外多方面研究后提出,具身智能(Embodied intelligence)相对于离身智能(Disembodied intelligence)更侧重关注“交互”,即智能受脑、身体与环境协同影响,并由身体与环境相互作用中,通过信息感知与物理操作过程连续、动态地产生。具身智能未来可望获得突破的发展方向包括形态涌现、感知进化、物理实现、多体协同等,刘教授等人也强调,尽管具身智能很重要,其有着自身的局限性,与离身智能的紧密结合才是实现通用智能的必由之路。

5.近期英伟达创始人CEO黄仁勋强调“具身智能”的重大价值

黄仁勋在ITFWorld2023半导体大会上表示,人工智能的下一个浪潮是具身智能(Embodied AI),即能理解、推理、并与物理世界互动的智能系统,比如机器人、自动驾驶汽车,甚至聊天机器人,他们都能很好的理解物理世界。同时,黄仁勋公布NividiaVIMA,一个多模态具身视觉语言模型。据介绍,VIMA可以通过视觉执行任务,也可以通过文本提示来做任务,比如重新排列这些方块以与场景匹配;它能明白概念,采取适当行动,他可以在演示中学习,并且将行为控制在合理范畴内。

6.具身智能的现实应用存在诸多难点,涉及到多学科知识

拆解具身智能的应用过程:当人要求机器人完成某一项任务,机器人要经过的步骤包括:能够听懂人类语言分解任务规划子任务移动中识别物体与环境交互最终完成相应任务。这个过程涉及到自然语言理解、逻辑推理、机器视觉、运动控制、机器学习、运动规划、机械控制等。因此,要实现完全的具身智能,依然有很长的一段路要走。

03

具身智能相关技术及模型

具身智能已成为全球学术和企业的重要的研究方向。今年的IROS(机器人领域顶级学术会议)将具身智能作为重要主题。目前谷歌、微软等技术团队、众多顶尖研究院所和高校已探索具身智能的发展落地。谷歌、微软、UCBerkeley等走在技术前沿。

1.谷歌:视觉语言大模型PaLM-E

2023年3月6日,来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型PaLM-E(Pathways Language Model with Embodied)。PaLM包括了540B语言模型与22B视觉ViT(Vison Transformer)模型,最终参数量达562B。PaLM-E本身是个多模态的大模型,不仅能理解文本,还能理解图片(ViT),可以理解图片中的语义信息。ViT将大模型能力泛化至CV领域,赋予大模型视觉能力。两相结合,PaLM-E模型具备多模态能力,能够观察物理实体世界的信息,由大模型进行分析理解,再将决策结果反馈至物理世界,由此沟通物理和虚拟两个世界。

亮点在于多模态大模型应用于人机交互领域。1)发现参数扩大有助于提升人机交互中的语言能力:语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强,5620亿参数的PaLM-E几乎保持了它所有的语言能力。2)对于机器人的长跨度、长周期任务,以往通常需要人工协助,PaLM-E通过自主学习全部完成,如下图左。3)展示了模型的泛化能力,研究人员要求机器人将“绿色色块推到乌龟旁边”的指令,即便机器人之前没有见过这只乌龟摆件,也能完成任务。

同时PaLM-E通过分析来自机器人摄像头的数据来实现对高级命令的执行,而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要,并允许更自主的机器人控制。

2.Meta:SAM分割模型

2023年4月6日,Meta推出一个AI模型Segment Anything Model(SAM,分割一切模型),能够根据文本指令等方式实现图像分割。SAM任务目的:零样本(zero-shot)或者简单prompt下,就对任意图片进行精细分割。

SAM证明,多种多样的分割任务是可以被一个通用大模型涵盖的。SAM做到的分割一切并不是CV大模型的终点,我们期待一个模型可以无监督完成分割、检测、识别、跟踪等所有CV任务,届时视觉大模型应用会得到极大发展。

3.微软:ChatGPT for Robotics

在Microsoft Research的ChatGPT for Robotics文章中,研究者使用ChatGPT生成机器人的高层控制代码,从而可以通过自然语言和ChatGPT交流,使用ChatGPT来控制机械臂、无人机、移动机器人等机器人。

目前的机器人的应用基础是代码,工程师需要经常编写代码和规范来控制机器人的行为,这个过程缓慢、昂贵且低效,使用场景有限。ChatGPT带来一种新的机器人应用范例,通过大型语言模型(LLM)将人的语言快速转换为代码。在这种情境下,人们不需要学习复杂的编程语言或机器人系统的详细信息,就可以控制机器人来完成各种任务,更轻松的与机器人互动。目前实验已经能够通过给ChatGPT的对话框输入指令,让其控制机器人在房间中找到“健康饮料”、“有糖和红色标志的东西”(可乐),以及一面供无人机自拍的镜子。

4.伯克利的LM-Nav模型

UCBerkeley、波兰华沙大学联合谷歌机器人团队发表论文《LM-Nav:具有大型预训练语言、视觉和动作模型的机器人导航系统》,该模型结合了三种预训练模型,从而无需用户注释即可执行自然语言指令。其中,大语言模型(LLM)用于完成自然语言处理的任务;视觉和语言模型(VLM)将图像和文本信息进行关联,即用户指令和机器人视觉感知的外部环境进行关联;视觉导航模型(VNM)用于从其观察到的信息中直接进行导航,将图像和将要执行的任务按时间进行关联。

5.国内现状

国内政策也在加码推进具身智能领域的发展,5月12日,北京市发布《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,其中便提出探索具身智能、通用智能体和类脑智能等通用人工智能新路径,包括推动具身智能系统研究及应用,突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。

具身智能有望打开AI新空间,引领人工智能下一站浪潮,建议关注包括数字基础设施及机器人制造等相关环节投资机会。

国内服务机器人企业加速领跑,开放化的行业生态日渐形成。当前,国产机器人的性能和可靠性大幅提升,国内企业围绕国内外特色市场需求,在手术医疗、消费服务等多个赛道推出了独具特点、功能新颖的特色产品,部分产品性能水平已突破“并跑”,实现与国际领先水平“领跑”。

04

相关产业梳理

1.具身智能+机器人将有望成为AI的重要解决方案,传感器、执行器与计划控制是三大基本要素

传感器包括本体感受传感器、触觉+视觉+声音传感器、机器视觉等;执行器包括减速器、伺服系统、微电机等;计划控制部分包括控制器、工控系统、AI系统等。传感器与执行器数量较多。具身智能核心技术壁垒和价值环节主要聚焦核心零部件:减速器、伺服系统和控制器,其中减速器在机器人中成本占比最高达30%,其次是伺服系统(20%)和控制器(10%)。

2.未来Optimus的数量可能将达到100亿以上

2023年5月17日,特斯拉召开2023年股东大会,展示了一直备受关注的人形机器人Optimus进化情况,在机械关节控制方面,特斯拉机器人电机扭矩控制,力度控制更加精确灵敏;在感知方面,该机器人环境感知和记忆能力提升不仅可以看路,亦会记路;在学习方面,Optimus可根据人类动作范例,进行端到端动作操控。特斯拉创始人兼首席执行官马斯克表示:未来Optimus的数量可能将达到100亿以上。

3.算力硬件层——具身智能的底层土壤

算力硬件层是构成AI产业的核心底座,主要包括AI芯片、AI服务器等。

AI芯片需求有望率先扩张。AI芯片是用于加速人工智能训练和推理任务的专用硬件,主要包括GPU、FPGA、ASIC等,具有高度并行性和能够实现低功耗高效计算的特点。

随着AI应用的普及和算力需求的不断扩大,AI芯片需求有望率先扩张。根据IDC预测,中国AI算力规模将保持高速增长,预计到2026年将达1271.4EFLOPS,CAGRA(2022-2026年)达52.3%。在此背景下,IDC预测异构计算将成为主流趋势,未来18个月全球人工智能服务器GPU、ASIC和FPGA的搭载率均会上升,2025年人工智能芯片市场规模将达726亿美元。

4.机器视觉——具身智能的“眼睛”

若要实现具身智能与外界的互动感知,机器视觉也是必不可少的一环。机器视觉是在机器人和自动化设备中代替人眼实现高精度检测、识别、测量和定位引导等功能,助力企业构建数字化车间、打造智能工厂。

从机器视觉产业链角度来看,机器视觉行业产业链环节较长,上游由机器视觉系统硬件和软件算法构成,中游为设备商和系统集成商主要负责软件的二次开发和设备制造,下游应用场景和行业广泛。工业是目前中国机器视觉行业最大的下游应用领域,工业领域的销售额占比为81.2%。具身智能有望成为下一个快速发展的下游应用。

机器视觉行业随工业自动化技术的演进逐步升级规模化应用,全球市场来看,GGII预计至2025年市场规模超1200亿元。

国内视觉龙头有望充分受益于具身智能发展。国内两大机器视觉龙头均深度布局。根据中国机器视觉产业联盟(CMVU)调查统计,现在已进入中国的国际机器视觉品牌已近200多家(如康耐视、达尔萨、堡盟等为代表的核心部件制造商,以基恩士、欧姆龙、松下、邦纳、NI等为代表的则同时涉足机器视觉核心部件和系统集成),中国自有的机器视觉品牌也已有100多家(如海康、华睿、盟拓光电、神州视觉、深圳灿锐、上海方诚、上海波创电气等),机器视觉各类产品代理商超过300家(如深圳鸿富视觉、微视新纪元、三宝兴业、凌云光、阳光视觉等)。

从视觉业务规模的角度看,2021年,各大厂商均有较为亮眼的业务增速,尤其国产厂商,海康机器人机器视觉业务2021年实现超过100%的增长,国内业务规模超过基恩士、康耐视,位居第一,其他国产厂商如奥普特、华睿科技亦有较高的增速。

05

具身智能相关公司

具身智能的出现会持续引领“大模型+机器人”潮流,机器人产业链及布局具身智能多模态大模型的厂商有望深度受益:机器人产业链:三花智控、绿的谐波、鸣志电器、禾川科技等;机器视觉:虹软科技、海康威视、大华股份等;大模型:中科创达、商汤科技、云从科技、科大讯飞等。

1.机器人产业链

(1)三花智控

机器人方面,公司重点聚焦仿生机器人机电执行器业务,并已与多个客户建立合作,具备先发优势,公司将同步配合客户量产目标,并积极筹划机电执行器海外生产布局。2023年4月公司发布公告,与苏州绿的谐波传动科技股份有限公司签署战略合作框架协议,双方将在三花墨西哥工业园共同出资设立一家合资企业,合资公司主营业务为谐波减速器。

(2)绿的谐波

谐波减速器长期需求向好,公司先发优势持续。谐波减速器长期需求向好。

①工业机器人领域需求有望持续增长,人工成本上升以及老龄化持续推动国内机器人对人工的替代,谐波减速器作为智能制造设备的核心基础零部件持续受益。

②非工业机器人应用领域不断拓展,由于具有自身体积小、传动比大等优点,加之公司创新底层数理模型,大幅提升产品刚性指标,为谐波减速器打开了大量新的应用场景,公司谐波减速器应用领域已经从工业机器人拓展至服务机器人、数控机床、医疗器械、半导体设备、新能源设备等多个领域。

2.机器视觉

(1)虹软科技

公司是计算机视觉行业领先的算法服务提供商及解决方案提供商,是全球领先的计算机视觉人工智能企业。23Q1移动智能终端收入实现正增长,同时智能驾驶视觉解决方案不断落地并持续取得前装定点项目,有望培育新的增长点。

(2)海康威视

公司较早地对人工智能的技术趋势作出反应,在技术上实现了更大规模和更深的网络、更强的并行能力、更强的数据中心、更强的数据生成和数据标注的能力。在AI技术的发展过程中,公司的AI模型规模持续扩大,已形成了千卡并行的能力并训练了百亿级参数的模型。公司始终专注于AIOT,从客户的场景需求出发解决问题。

3.大模型

(1)中科创达

中科创达发布全新的人工智能基础大模型系列和应用产品路线图。其中,RUBIK基础平台(RUBIKFOUNDATIONFAMILY),全面覆盖了从边缘端、语言大模型、多模态、机器人等大模型系列。RUBIK应用产品全家桶全面覆盖了包括汽车大模型、终端大模型、行业大模型、开发套件大模型等一系列大模型产品组合。

Rubik大模型接入Kanzi,赋能汽车HMI设计。公司基于Rubik大模型和Kanzi,推出HMI设计辅助工具Rubik Genius Canvas,该产品能够为设计师提供从概念创作、3D元素设计、特效代码生成以及场景搭建制作等方面的帮助,极大的提升了汽车座舱HMI的设计效率与质量。

Rubik或将对标GooglePaLM2,赋能边缘AI应用。Rubik大模型将与公司现有的智能汽车和物联网业务整合,并通过私有化部署和系统调优来满足各行业需求。当前市场聚焦于云端大模型AI以及上游算力等环节,对于边缘AI预期差较大,而中科创达先发优势显著。

(2)科大讯飞

深度参与互联网产业格局重塑,攻关“讯飞星火大模型”筑牢技术底座优势。2022年12月,科大讯飞启动了“1+N认知智能大模型技术及应用”专项攻关,其中“1”指的是通用认知智能大模型算法研发及高效训练方案底座平台,“N”指的是将认知智能大模型技术应用在教育、医疗、人机交互、办公、翻译等多个行业领域。科大讯飞有信心在中文认知领域形成独特优势,同时在教育、医疗等多个行业领域形成业界领先的深度创新应用。公司在2023年5月6日举办了“讯飞星火认知大模型”成果发布会,除了发布“讯飞星火认知大模型”之外,还有星火认知大模型在公司现有产品上的商业应用成果:大模型+AI学习机:AI像老师一样批改作文,像口语老师一样实景对话;大模型+讯飞听见:录音一键成稿,一分钟输出流畅会议文案;大模型+智能办公本:根据手写要点自动生成会议纪要;大模型+智慧驾舱:车内跨业务,跨场景人车自由交流;大模型+数字员工:基于自然语言生成业务流程和RPA(RPA即机器人流程自动化),帮助企业员工完成大量重复性工作;大模型+开放平台:联合各行业合作伙伴共建大模型生态,首批接入来自36个行业的3000余家开发者。

“星火大模型”的三个重要时间点。2023年6月9日科大讯飞24周年庆时,“星火”会通过类搜索插件突破开放式问答,即实时问答,多轮对话能力、数学能力也将升级。8月15日,“星火”的多模态能力、代码能力会上升一个“大台阶”,并将开放给客户。10月24日,“星火”大模型将能够在通用大模型能力上对标ChatGPT,“在中文上要超越ChatGPT,英文上达到相当的水平。”

06

具身智能发展展望

大模型与机器人成果显著,具身智能的东风已至:

1.人形机器人——具身智能成长的重要土壤

TeslaBot功能进展迅速,商业化前景可期。2021年,在“特斯拉AI日”上,马斯克发布了特斯拉的通用机器人计划,并用图片展示了人形机器人TeslaBot的大致形态。但当时的TeslaBot只是个概念。一年后在2022特斯拉AI日上,人形机器人擎天柱(Optimus)实体亮相。2023年5月中旬的特斯拉股东大会上,马斯克又展示了TeslaBot的最新进展,现在TeslaBot已经可以流畅行走,并还能灵活抓取放下物体。马斯克在会上表示“人形机器人将会是今后特斯拉主要的长期价值来源。如果人形机器人和人的比例是2比1,则人们对机器人的需求量可能是100亿乃至200亿个,远超电动车数量”。

最近的TeslaBot功能突破来源于特斯拉改进的电机扭矩控制以及环境建模等技术。特斯拉利用一些技术方法改进了人形机器人的动作和控制,包括电机扭矩控制、环境发现与记忆、基于人类演示训练机器人。首先,研究团队使用电机扭矩控制(motor torque control)操纵人形机器人腿部的运动,让机器人落脚力度保持轻缓。对于一个机器人来说,观察或感知周围环境是非常重要的,因此特斯拉为人形机器人添加了环境发现与记忆的能力。现在该人形机器人已经可以对周围环境进行大致建模。特斯拉的人形机器人具备与人类相似的身体结构,特斯拉的研究团队使用大量人类演示训练了机器人,特别是在手部动作方面,旨在让其具备与人类似的物体抓取能力。

具身智能带来的AI价值远比人形机器人更大。具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈,而不是被动的等待数据投喂。人形机器人提供了各种基于人类行为的学习和反馈系统,为实现更复杂行为语义提供了迭代的基础和试验场,因此,人形机器人的逐步完善也为具身智能的落地提供了方向。而面向工业等场景的具身智能应用并非一定要是人形机器人,因此具身智能背后的技术和方法论才是核心,也意味着具身智能所带来的价值要远远高于人形机器人本身。换句话说,人形机器人是具身智能的重要应用场景,也将为具身智能的迭代优化提供方向和空间。

2.AIGC助力具身智能瓶颈突破,智能与泛化能力是关键

强化学习兴起之后,具身智能受到了更广泛的关注。之前随着AlphaGo的成功,学术界对于强化学习的兴趣大增,随之很多人开始用RL来打通智能体的感知-决策-执行,希望实现具身智能。训练RL是一个不断试错的过程,所以从2017、18年开始,出现了很多仿真训练平台,能把一个智能体以具身的形式放进去,然后通过与环境的交互中获得reward,进而学习一个policy。但是因为仿真环境和现实环境总是有差距的(叫sim2realgap),习得的policy不一定能迁移到现实里。当前能实现技能policy从仿真迁移到现实环境中的,主要还是像移动导航、单步骤的抓取或者操作这类较为单一的技能,而且很难泛化。

最近大语言模型的风头又压过了强化学习。最近业界希望通过大规模,用一个模型整合视觉、语言、机器人,也取得了一定效果。但是机器人的执行需要的是4D数据(三维环境和机器人运动的时序轨迹),它的数据量和丰富度都远不如图片和文本,采集成本也高的多,因此迭代演化的难度相比于大模型高得多。

而多模态大模型为具身智能的技术瓶颈突破提供了重要驱动力。具身智能是人工智能、机器人等各技术分支融合发展的必然结果,因为计算机视觉为图像的采集和处理打开了窗口,图形学也为物理仿真提供了工具支撑,NLP也为人类-机器交互提供了便捷性,也为机器从文本中学习知识提供了有效途径,认知科学也为具身智能的行为认知原理提供了科学研究途径。各类机器人构件也为智能体与物理环境交互提供了桥梁。因此,人工智能的技术分支以及机器人功能性的提升,为具身智能的进一步发展带来了可能,而当前AIGC时代的大模型可以将之前的技术分支更优地集成和创新,已有不少研究者尝试将多模态的大语言模型作为人类与机器人沟通的桥梁,即通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,从而更高效地帮助机器人处理具身推理任务,一定程度提升了具身智能的泛化水平。所以,GPT等AI大模型为具身智能的自我感知和任务处理的优化升级提供了新的研究手段。

3.巨头纷纷布局,产业融合加速推进

“算力霸主”英伟达高调布局具身智能。在ITFWorld2023半导体大会上,黄仁勋表示人工智能的下一个浪潮将是具身智能,即能理解、推理、并与物理世界互动的智能系统。同时,他也介绍了英伟达的多模态具身智能系统NvidiaVIMA,其能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学,这也标志着AI能力的一大显著进步。

融合传感器模态与语言模型,谷歌推出的视觉语言模型相较于ChatGPT新增了视觉功能。2023年3月,谷歌和柏林工业大学AI研究团队推出了当时最大视觉语言模型——PaLM-E多模态视觉语言模型(VLM),该模型具有5620亿个参数,集成了可控制机器人的视觉和语言能力,将真实世界的连续传感器模态直接纳入语言模型,从而建立单词和感知之间的联系,且该模型能够执行各种任务且无需重新训练,其相较于ChatGPT新增了视觉功能。PaLM-E的主要架构思想是将连续的、具体化的观察(如图像、状态估计或其他传感器模态)注入预先训练的语言模型的语言嵌入空间,因此实现了以类似于语言标记的方式将连续信息注入到语言模型中。

谷歌实现视觉语言与机器人高水平实时互联,且观察到了类似多模态思维链推理与多图像推理等涌现能力的出现。基于语言模型,PaLM-E会进行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言令牌大小相同的向量。因此,模型就能继续以处理语言的方式“理解”感官信息。而且,同一套PaLM-E模型能够达到实时控制机器人的水准。PaLM-E还展现出随机应变的能力,例如尽管只接受过单图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或预测)。但谷歌展示的Demo中的空间范围、物品种类、任务规划复杂度等条件还比较有限,随着深度学习模型愈发复杂,PaLM-E也将打开更多可行性应用空间。

微软正计划将ChatGPT的能力扩展到机器人领域,使得能用语言文字控制机器人。目前实验已经能够通过给ChatGPT的对话框输入指令,让其控制机器人在房间中找到“健康饮料”、“有糖和红色标志的东西”等。微软研究人员表示,“研究的目标是看ChatGPT是否能超越生成文本的范畴,对现实世界状况进行推理,从而帮助机器人完成任务”。微软希望帮助人们更轻松地与机器人互动,而无需学习复杂的编程语言或有关机器人系统的详细信息。

阿里采用和微软相似的路径,正在实验将千问大模型接入工业机器人。在近日举行的第六届数字中国建设峰会上,阿里云发布一个演示视频中展示了千问大模型的实际应用场景。其中,千问大模型接入了工业机器人,工程师通过钉钉对话框向机器人发出指令后,千问大模型在后台自动编写了一组代码发给机器人,机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,递送给工程师。在钉钉对话框输入一句人类语言即可指挥机器人工作,这将为工业机器人的开发和应用带来革命性的变化,其背后意味着大模型为工业机器人的开发打开了新的大门。因为千问等大模型为机器人提供了推理决策的能力,从而有望让机器人的灵活性和智能性大幅提升。

END

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多