人形机器人，科技巨头入场

书香文斋 2024-03-06 发布于新疆

展开全文

复盘最近一周的大事，在科技领域，人形机器人可以说是当仁不让的焦点。

科技巨头入场

近日，英伟达成立了一个新的研究小组，名为“GEAR（Generalist Embodied Agent Research）”。目标是为了让英伟达进一步推进和构建基于人工智能的实体，并使其能够在虚拟世界和物理世界中熟练地操作，比如智能机器人和NPC之类。这个新部门由AI高级研究科学家、AI 代理计划的负责人Jim fan和Yuke Zhu教授领导，主要专注于多模态基础模型、通用型机器人研究、虚拟世界中的基础智能体、模拟与合成数据技术这四大关键领域，致力于在未来技术浪潮中占据领先地位，并推动整个人工智能和机器人行业的持续进步与发展。

英伟达还宣布，将于3月18日至21日举办GTC2024大会。届时，黄仁勋将发布加速计算、生成式AI以及机器人技术领域的最新突破性成果。在英伟达列出的12位重磅嘉宾中，三位是机器人领域大佬，包括Google DeepMind杰出科学家兼机器人高级总监Vincent Vanhoucke、波士顿动力公司首席技术官Aaron Saunders、斯坦福大学计算机科学教授李飞飞博士。Agility Robotics、波士顿动力公司、迪士尼和Google DeepMind等公司还将在现场展出25款机器人，包括人形机器人、工业机械手等。

除此之外，人形机器人初创公司Figure AI也受到广泛关注。据称其在新一轮融资中募资约6.75亿美元，投前估值约20亿美元。目前，亚马逊创始人杰夫·贝索斯、英伟达和其他大型科技公司正在投资Figure AI：贝索斯已通过他的公司Explore Investments LLC承诺投资1亿美元，微软将投资9500万美元，英伟达和亚马逊附属基金各提供5000万美元，英特尔的风险投资部门将投入2,500万美元，LG Innotek将提供850万美元。与此同时，三星投资集团承诺出资500万美元。一度考虑收购Figure的OpenAI将投资500万美元。

FigureAI成立于2022年1月，专注于设计自动通用人形机器人。其创始人Brett Adcock被称为“下一个埃隆·马斯克”。Figure公司的员工多来自特斯拉、IHMC、Apple、Cruise等。这家公司的目标是打造世界上第一个具有商业可行性的人形机器人，并加入人类的劳动队伍。在Figure上个月发布的一个视频中，旗下产品Figure 01展示出能够自主完成煮咖啡等任务的能力。

与此相关的信息还有，马斯克在推特发布人形机器人Optimus在实验室里闲逛的视频。Optimus的步行速度已达到0.6米/秒或1.34英里/小时。自12月的视频演示以来，速度提升了30%以上。

市场规模将达千亿美元

2024年将是机器人软件技术快速突破之年，也将是人形机器人量产元年。人形机器人有望成为千亿美元级的蓝海市场。随着人形机器人功能迈向多样化和普适化，产业分工日趋成熟，成本持续下探，潜在应用场景包括制造业、家庭服务等多个领域。有数据显示，2035 年全球人形机器人制造和家庭服务市场销量达到1318万台，2025-2035 年CAGR为98.2%；市场规模达到1103亿美元，2025-2035年CAGR为68.6%。

全球人形机器人制造和家庭服务市场销量

机器人可以视为AI+制造业的最佳结合体。中国是全球最大的制造业基地，市场前景发展广阔。同时，老龄化已成为工业化国家不得不面临的问题。要想解决这一问题，向资本密集型的自动化、智能化产业转型是更有可能的路径。对于中国而言，高端制造业的进一步升级也是紧迫而必要的。

从产业链视角上看，人形机器人相比工业机器人而言，由于构造复杂、造价昂贵，渗透率还比较低，但未来的市场空间巨大。同时，由于人形机器人所需要的硬件数量和精度要求都要远高于普通工业机器人，这也意味着人形机器人更长、更广泛的产业链，能创造的产业链价值更大。

AI大模型实现泛化能力

与AI大模型不同，人形机器人是软硬件能力高度集成的实体。但其核心突破点正在于AI大模型。可以说，AI大模型将形成人形机器人的AI大脑。具身智能大模型将为机器人操作系统补全最后一块拼图。

以往由于算法模型的局限，机器人很难形成通用化能力，只能通过对于某一个特定领域训练对应的基础模型，形成特定用途的机器人AI算法，比如工厂车间大量采用的机械臂、家用扫地机器人等。软件层面的局限性限制了机器人的应用场景。

而大模型的出现，补全了让机器人能力实现跃升的技术基础。去年，AI公司Levatas与波士顿动力合作，将ChatGPT和谷歌的语音合成技术接入Spot机器狗，成功实现与人类的交互。可以说，ChatGPT 的成功，为人形机器人的发展带来了拐点。可以说，大模型的泛化能力让研究者看到人形通用机器人的曙光。

泛化（Generalization）可以理解为一种迁移学习的能力，把从过去的经验中学习到的表达、知识和策略应用到新的领域。人类就具有“举一反三”的能力，学习一个新概念后立即就能理解它在其他情况下的相关用法。以往，人工智能的泛化能力很低，应用场景更加局限。而大模型的泛化能力让人形机器人能够在没有被训练过的场景中也能有所表现，这是人形机器人实现通用性的基础。

有报道称，以 GPT-4为代表的多模态大模型已经具备成为通用性人形机器人核心大脑的初步条件。OpenAI 在 10 月正式上线 GPT-4V（ision），为 GPT-4 新增了语音与图像功能。用户可以直接与 GPT-4V 进行语音交互，并且 GPT-4V 能够对图像进行推理和分析。根据微软团队对 GPT4V 的详细评测，GPT-4V有作为具身智能的理解核心的潜力。在微软的测试案例中，GPT-4V可以扮演一名家庭机器人，阅读咖啡机的操作界面并给出正确的指令操作；或者通过房间图片的输入，要求 GPT-4V 规划出去厨房冰箱取物品的路线，GPT-4V 也可以执行面向任务的导航。

英伟达的策略

分析英伟达在人形机器人上的战略，简单总结可以概括成“大模型-数据-开发平台”。在去年ITF World 2023半导体大会上，英伟达CEO黄仁勋就高调宣传了这一概念，并在这场活动上公布了一套多模态具身智能系统——Nvidia VIMA。这是一款全新的AI模型，能够在视觉文本提示的指导下执行复杂任务。

在英伟达GEAR小组负责人Jim Fan的演讲中，其给具身智能的定义为“一个掌握广泛技能，控制许多身体，并能够泛化到多个环境中的单一算法。”这是一个可以在虚拟世界和现实世界里泛化的通用智能体模型，而人形机器人是这种模型最好的载体。

在GEAR 团队成立之前，英伟达已在具身智能大模型领域实现了一些研究成果。比较出名是，Nvidia Research团队利用GPT-4生成奖励函数，教会机器人完成三十多个复杂任务，包括快速转笔，打开抽屉和柜子、以及抛接球等。在英伟达发布的Voyager项目中，将GPT-4嵌入知名游戏《我的世界》，利用多模态提示实现通用机器人操作能力，这也是第一个用大语主模型驱动，玩游戏的案例。

此外，英伟达还拥有丰富的训练数据。这些数据一部分来自英伟达庞大的生态伙伴；另一方面英伟达还摸索出一条获取数据的“新路”，即利用自身硬件生成数据。在英伟达与得克萨斯大学奥斯汀分校的一项最新研究论文中，介绍了一个名为“MimicGen”的系统，该系统可以用不到 200个演示，自主生成超过5万个训练数据，从而大大减少昂贵的人工演示工作、加快机器 AI 化进程。在行业数据资源几近枯竭的背景下，英伟达靠着自身的硬件条件让AI大模型训练更加容易。而相关分析显示，合成数据有望打破人工智能训练数据的瓶颈。

英伟达的最终目标还是打造机器人开发平台与生态，抢占产业链价值最高点。英伟达在Jetson Orin系列平台的基础上，推出了Issac AMR等一系列智能机器人平台，以巩固其竞争优势。在即将召开的GTC2024大会上，英伟达将发布加速计算、生成式AI 以及机器人领域的最新突破性成果。会议上，Agility Robotics、波士顿动力公司、迪士尼和Google Deep Mind等公司将在现场展出25款机器人，包括人形机器人、工业机械手等。这些都是英伟达打造机器人开发平台与生态的一部分。具身智能被英伟达看作AI的下一个热点。英伟达正在人形机器人产业上做前期的布局。