物理AI研究进展综述：从具身认知到通用机器人智能

2026-06-06

9 min read

物理AI研究进展综述：从具身认知到通用机器人智能

摘要

物理AI（Physical AI）作为人工智能领域的前沿方向，致力于构建能够在物理世界中感知、推理、行动的智能系统。与纯数字AI不同，物理AI强调智能体与物理环境之间的耦合——认知不仅存在于神经网络中，更体现于身体与世界的交互过程。本文从技术发展史、理论根基、研究前沿、热点议题、产业格局五个维度，系统梳理物理AI的演进脉络与最新突破，涵盖从早期控制论到当代基础模型驱动的机器人学习的完整光谱，为相关领域研究者提供全景式的技术地图。

关键词： 物理AI；具身智能；人形机器人；Sim2Real迁移；世界模型；基础模型；灵巧操作

一、引言

2023年至2026年间，物理AI经历了一场前所未有的范式转变。以Google DeepMind的RT-2（Vision-Language-Action模型）、NVIDIA的Project GR00T通用人形机器人基础模型、以及Figure 02与Tesla Optimus为代表的人形机器人产业化尝试为标志，学术界与工业界正在以前所未有的速度融合。据Crunchbase与CB Insights统计，仅2023-2025年，全球人形机器人领域的风险投资已超过60亿美元，参与者包括OpenAI、Microsoft、NVIDIA、Amazon等科技巨头。

然而，这一波热潮并非凭空出现。物理AI的理论根基深植于20世纪中叶的控制论（Cybernetics），经由20世纪80年代Rodney Brooks对符号AI的彻底批判（即"物理基础假设"Physical Grounding Hypothesis），再到21世纪初具身认知（Embodied Cognition）运动的理论深化，最终在深度学习革命所提供的计算基础之上迎来了爆发[1][2]。本文旨在将这些分散的线索编织成一张连贯的知识图谱，从历史、理论、技术、产业四个维度提供系统性综述。

二、技术发展历史

2.1 控制论时代：智能的原初定义（1940s-1960s）

物理AI的思想渊源可追溯至Norbert Wiener于1948年出版的《控制论：关于在动物和机器中控制和通信的科学》（Cybernetics: Or Control and Communication in the Animal and the Machine）。Wiener的核心洞见在于：智能行为可以通过反馈环路（feedback loops）来解释——系统感知环境、计算偏差、执行校正，这一抽象框架同时适用于生物体与机器[3]。控制论奠定了"智能存在于物理世界的闭环中"这一根本信念，其直接影响延伸至W. Grey Walter的"乌龟"机器人（Elmer和Elsie，1949年），这些简单的光感机器人通过两个神经元式的电路表现出看似复杂的趋光与避障行为，成为最早的物理实现的人工智能体。

1959年，Marvin Minsky和John McCarthy在MIT建立了人工智能实验室，早期工作充满对物理世界的关注。然而，随着20世纪60年代后期符号AI（Symbolic AI）的兴起——即Simon和Newell的物理符号系统假说（Physical Symbol System Hypothesis）——研究重心从感知-行动回路转向了抽象符号操作，物理世界中的智能问题被暂时搁置[4]。

2.2 Brooks的颠覆：行为主义与包容架构（1980s）

1986年，MIT人工智能实验室的Rodney Brooks发表了两篇标志性论文《基于行为的机器人》（A Robust Layered Control System for a Mobile Robot）和《大象不可下棋》（Elephants Don't Play Chess）。Brooks提出了两个颠覆性论断：

"世界是其自身的最佳模型"——与其在机器人内部构建复杂的符号世界表征，不如让机器人直接与环境交互，通过感知-行动耦合产生自适应行为；
包容架构（Subsumption Architecture）——通过分层的行为模块（避障→漫游→探索），每层独立运作且相互抑制，实现无中心控制的涌现智能。

Brooks的"物理基础假设"（Physical Grounding Hypothesis）明确提出："一个智能体必须拥有身体，并且必须通过感知-行动环路直接与世界交互，才能拥有真正的智能。"[2] 这一思想直接催生了行为主义机器人学（Behavior-Based Robotics），并间接影响了后来机器人的发展和具身认知理论的诞生。

2.3 具身认知运动：理论奠基（1990s-2000s）

几乎与Brooks同时，认知科学领域发生了一场深刻的"具身转向"。1991年，智利生物学家Francisco Varela、美国哲学家Evan Thompson和心理学家Eleanor Rosch出版了《具身心智：认知科学与人类经验》（The Embodied Mind: Cognitive Science and Human Experience），提出认知不是对预设世界的表征，而是通过身体的感觉运动能力与世界的结构耦合（structural coupling）涌现出来的[5]。这一思想继承了Maturana和Varela的"自创生"（Autopoiesis）理论——有生命的系统通过自我生产和与环境互动来维持自身组织。

2006年，苏黎世大学的Rolf Pfeifer和Josh Bongard出版了里程碑式著作《身体如何塑造思维方式：机器人学中具身智能的新视角》（How the Body Shapes the Way We Think: A New View of Intelligence），系统阐述了智能体的身体形态（morphology）如何约束和赋能其认知能力，提出了"形态计算"（Morphological Computation）的概念——智能的部分计算并不发生在中央处理器中，而是由身体的物理结构和材料属性"免费"完成的[6]。例如，人类跟腱的弹性天然地吸收了步态中的冲击力，无需大脑实时计算每个关节的阻尼。

这一时期的重要理论贡献还包括：

感觉运动偶发理论（Sensorimotor Contingency Theory, O'Regan & Noë, 2001）：将感知重新定义为行动规则的主宰，而非被动的感觉输入处理[7]；
动态系统进路（Dynamical Systems Approach, Thelen & Smith, 1994）：将认知视为在时间中展开的动态系统，而非离散符号操作[8]；
生态心理学（Ecological Psychology, Gibson, 1979）：提出"可供性"（Affordance）概念——环境提供给生物的行动可能性是感知的直接对象，无需认知中介[9]。

2.4 Moravec悖论与深度学习革命（2000s-2010s）

20世纪80年代末，机器人学家Hans Moravec和后来的Marvin Minsky都注意到一个反直觉的经验规律：对人类来说高难度的抽象推理（如下棋、数学证明），对AI来说相对容易；而在物理世界中看似简单的事情（如抓起一个鸡蛋、在不平坦的地面上行走），对机器来说却异常困难。Moravec在其1988年著作《心智儿童》（Mind Children）中写道"让计算机在智力测试或跳棋中展现成人水平相对容易，但要让它们拥有一岁小孩的感知和行动能力则几乎不可能。"[10]

Moravec悖论的根源在于：人类数百万年进化所打磨的感觉运动系统，其"计算"已被深度压缩在生物神经网络的硬件结构中，并不遵循符号AI的逻辑。这条悖论直到深度学习技术的成熟才开始被逐步克服：

2012年AlexNet在ImageNet上的突破，证明了深度卷积网络能从原始像素中学习高效特征；
2015年DeepMind的深度Q网络（DQN）从原始像素学习玩Atari游戏，展示了端到端强化学习的潜力；
2016年Schulman等的PPO算法和Lillicrap等的DDPG算法，为连续控制问题提供了稳定的深度RL框架；
2017年OpenAI的Dactyl五指灵巧手证明了，通过域随机化（Domain Randomization）的Sim2Real方法，可以在仿真中训练的操纵策略直接在实体机器人上零样本迁移[11]。

2.5 基础模型时代：机器人学的GPT时刻（2020s）

2021年后，大规模预训练模型（基础模型，Foundation Models）从自然语言处理逐步扩展到计算机视觉和多模态领域[12]，并迅速渗透到机器人研究的最前沿。关键转折点包括：

RT-1 (Robotic Transformer, 2022)：Google Robotics提出了第一个在大规模机器人数据上训练的Transformer架构，通过将机器人经验编码为Token序列，实现了在130个任务上的零样本泛化[13]。

RT-2 / Vision-Language-Action模型 (2023)：Google DeepMind将大规模互联网预训练的视觉-语言模型（PaLM-E）直接微调为机器人行动策略，证明互联网知识可以显著提升机器人对未见过物体和场景的泛化能力[14]。这一工作标志着机器人基础模型的诞生。

RT-X / Open X-Embodiment (2023)：由Google DeepMind和33个研究机构联合发起的大规模协作项目，汇集了超过60个机器人数据集的100万+条轨迹，展示了跨机构、跨机器人平台联合训练可以显著提升策略的泛化性能[15]。

Octo (2024)：加州大学伯克利分校、斯坦福大学和CMU联合发布的开放机器人基础模型，通过Transformer架构和混合专家设计，首次展示了单一模型可适配多种不同机器人形态[16]。

OpenVLA (2024)：第一个完全开源的行为基础模型，在7B参数的视觉-语言模型基础上微调为机器人行动策略，推动了机器人研究的民主化[17]。

三、理论基础

物理AI的理论根基跨越了认知科学、神经科学、物理学和计算机科学多个领域，形成了丰富的概念工具包。

3.1 自由能原理与主动推理

Karl Friston提出的自由能原理（Free Energy Principle, FEP）为理解自适应系统提供了统一的数学框架。其核心思想是：任何生命系统都会最小化其内部状态模型的变分自由能（Variational Free Energy），即最小化对世界状态的后验信念与实际感觉输入之间的差异[18]。在机器人框架中，这意味着智能体通过两个互补过程维持内部模型与外部世界的一致：

感知（Perception）——调整信念以拟合感觉输入；
行动（Action）——改变环境以使感觉输入符合信念。

Friston将后者形式化为主动推理（Active Inference），认为行动的本质是一种"自我实现的预言"：智能体通过行动使世界与其预测一致[19]。这一框架已在机器人控制、导航和操作任务中得到了实验验证（参见Pezzato等, 2023[20]）。

3.2 预测编码与运动控制

预测编码（Predictive Coding）由Rao和Ballard于1999年提出作为视觉皮层的信息处理模型[21]，随后被扩展到运动控制领域（Adams, Shipp & Friston, 2013）。在运动系统中，大脑不断生成自上而下的运动预测，并与实际感觉反馈比较，将预测误差沿层级向上传播以更新模型。这一理论框架为机器人提供了"前馈+反馈"控制的神经生物学解释，被应用于自适应步态控制和灵巧操作的抗扰动策略中[22]。

3.3 可供性理论与生态心理学

James J. Gibson在其1979年的著作《视觉感知的生态学进路》（The Ecological Approach to Visual Perception）中提出了可供性（Affordance）概念：环境中的物体为观察者提供的行动可能性，是直接感知到而非推理出来的[9]。例如，一个"可抓握"（graspable）的把手直接存在于视觉信息中，无需符号表征的中介。这一概念对机器人领域影响深远——从语法图方法（Detry等, 2017）到基于深度学习的可供性检测器（Kokic等, 2020），可供性已成为机器人物体操作的核心范式[23]。

3.4 符号落地问题

Stevan Harnad于1990年在《Physica D》上发表的经典论文中提出了符号落地问题（Symbol Grounding Problem）：纯符号系统的意义如何与外部世界中的实体建立联系？即，一个仅仅操作符号的AI系统如何真正"理解"它处理的符号所代表的物理对象？[24]这一问题指明了物理AI的必要性——符号必须通过感知-行动环路落地于物理世界，这正是Brooks物理基础假设的理论对应物。

3.5 形态计算

形态计算（Morphological Computation, Pfeifer & Bongard, 2006）揭示了一个反直觉的事实：智能系统的一部分"认知负荷"可以由身体形态本身承担[6]。例如：弹簧腿的弹跳无需控制器的逐帧计算，而是由材料的弹性自动完成的；一个被动动态步行器（McGeer, 1990）仅依靠重力和杠杆机制即可在斜坡上自然行走，不需要任何传感器或控制器。这一理论为"设计身体即设计智能"的观点提供了工程实践指导——优良的机械设计本身就能极大简化控制算法。

四、主要研究方向

4.1 机器人基础模型（Foundation Models for Robotics）

这是当前最活跃、最具影响力的研究方向。核心思想是：能否像GPT系列在语言领域所作的工作一样，在机器人领域构建一个大规模预训练的、可跨任务、跨平台迁移的单一通用模型？

代表工作：

RT-2 (2023)：将视觉-语言模型（PaLM-E）扩展到视觉-语言-行动（VLA）模型，在Web数据上预训练后微调机器人示范数据，展示了从"看到番茄"到"互联网知识告诉它番茄是红色的、可抓握的、可以放到篮子里"的跨模态推理能力[14]。
π₀（Pi-Zero, 2025）：2联合X和斯坦福等机构提出的VLA模型（arXiv在审），在RT-2基础上加入了流匹配（Flow Matching）行动生成策略，显著提升了复杂长时域操纵任务的性能。
Octo (2024)：基于Transformer的开放机器人Transformers模型，使用80万条机器人示范数据的混合数据集训练，可通过微调适配新任务和新机器人平台[16]。

关键挑战：数据稀缺、异构性（不同机器人具有不同的运动学、传感器配置）、任务规范形式不统一。

4.2 Sim2Real迁移学习

仿真到现实（Simulation to Real, Sim2Real）迁移旨在应对真实世界训练的安全性与效率瓶颈：与其让机器人在真实物理世界中耗费数百万次试错——这在硬件磨损和时间成本上均不可承受——不如在高保真仿真器中训练策略，再迁移到实体机器人上。

关键技术路径包括：

域随机化（Domain Randomization, Open AI 2017）：在仿真中随机化物理参数（摩擦力、质量、颜色、光照），迫使策略学习鲁棒的特征表示，使得真实世界的"陌生的"物理参数仅被视为另一个随机化实例[11]；
系统辨识（System Identification）：建立从现实世界到仿真参数的逆向映射，使得仿真器尽可能逼近真实物理特征，典型工具有PyBullet、MuJoCo 3.0；
域适配（Domain Adaptation）：通过对抗训练或特征对齐学习域不变表征。

代表性平台包括NVIDIA Isaac Sim（基于Omniverse的实时物理仿真）、Meta Habitat 3.0（支持人机交互的具身AI仿真器）、Google DeepMind MuJoCo 3.0等[25]。

4.3 世界模型（World Models）

世界模型是智能体对环境动态的内部表征——一个能够预测"如果我执行某个动作，下一个时刻世界将如何变化"的生成模型。这个概念最早可追溯至Jürgen Schmidhuber的预测编码研究，但其现代形式由David Ha和Schmidhuber的"世界模型"（2018）确立[26]。

关键进展：

DreamerV3 (2023)：DeepMind的Hafner等人提出的强化学习世界模型，在学习Atari游戏和机器人控制任务时，完全基于模型预测进行规划，无需真实环境交互即可学习策略[27]；
DayDreamer (2023)：将Dreamer架构直接部署于实体机器人上的零样本Sim2Real实现，展示了世界模型可以从真实世界的感官输入流中直接学习；
UniSim (2024)：Meta AI提出的统一仿真框架，融合了视觉、物理和语义信息，支持零样本组装和交互式物理推理[28]。

世界模型被认为是通向基于想象的计划（Imagination-based Planning）的关键技术——智能体可以在内部"想象"多种行动序列的结果，选择最优者执行，这与人类前额叶皮层的计划功能高度相似。

4.4 扩散策略与模仿学习

2023年以来，扩散模型（Diffusion Models）被引入机器人策略学习，带来了突破性进展。扩散策略（Diffusion Policy, Chi等, 2023）的核心洞见在于：机器人的行动生成本质上是一个条件去噪过程——给定当前观察，从随机噪声中逐步恢复出一个最优行动轨迹[29]。

与传统方法（高斯混合模型、隐变量模型、自回归Transformer）相比，扩散策略具有以下优势：

捕获多模态行动分布（同一个场景可以有多个合法的抓取方式）
处理基于视觉的高维行动空间
训练稳定，对超参数不敏感

衍生工作包括：

Action Chunking with Transformers (ACT, Zhao等, 2023)：使用CVAE编码-解码架构将行动序列压缩为隐变量，在精细操作任务（如穿针、折叠衣物）上实现了人类水平的表现[30]；
3D扩散策略（Ze等, 2024）：将3D视觉特征引入扩散策略，实现了基于点云表示的零样本抓取规划。

4.5 全身控制与移动操作

传统机器人研究将移动（导航）和操作（抓取）作为两套独立的系统。物理AI的目标之一是实现全身智能（Whole-Body Intelligence）——将移动、操作、平衡、感知在单一行为流中无缝整合。这对人形机器人尤为关键，因为人类日常活动天然需要全身协调（例如弯腰拿取物品时同时通过腿部维持平衡）。

关键工作：

ETH Zurich ANYmal系列：四足机器人在复杂地形上的敏捷运动（攀爬、跳跃、滑行），利用RL在仿真中训练的策略直接部署到实体，展示了全身控制的潜力[31]；
MIT Improbable AI Lab：通过"分层RL+模型预测控制"的混合架构，实现了人形机器人的双手协调操作和动态平衡；
Stanford HumanPlus (2024)：使用单一RGB摄像头观察人类示范，通过模仿学习将运动轨迹映射到人形机器人，实现了无需精密传感的全身技能迁移。

4.6 灵巧操作与触觉感知

灵巧操作（Dexterous Manipulation）处理的是物理AI中最困难的问题之一——用高自由度机械手完成精细操作任务。

关键工作：

OpenAI Dactyl (2018)：Shadow Hand五指灵巧手通过深度RL+域随机化实现了单手魔方翻转[11]；
MIT GelSight触觉传感：基于光学原理的高分辨率触觉传感器（2010-2022），能够检测接触力的空间分布、物体纹理和表面滑动，被视为触觉感知领域的"Imagenet时刻"[32]；
TA-CO (Tactile-Aware Control)：2024年MIT和Meta AI联合提出的触觉-视觉融合框架，将触觉信号编码为深度特征，与视觉特征联合训练操作策略，在"盲操作"（无视觉反馈）任务中依然保持高鲁棒性。

五、当前热点与具身智能

5.1 具身智能基准测试

评估具身智能系统的进展需要一个标准化的度量体系。近年涌现的基准测试包括：

BEHAVIOR-1K (2022, Stanford)：包含1000种日常家务任务的物理仿真基准，涵盖物体操作、重组、清洁等类别，被广泛用于评估长时域任务计划能力和操作精度[33]；
ALFRED (2020, Allen AI)：基于AI2-THOR仿真器的任务导向基准，Agent需要根据自然语言指令完成多步操作，评估视觉-语言-行动的联合推理能力；
Habitat 3.0 Challenge (2024, Meta)：支持人机协作的具身AI基准，新增了多人参与、人类与机器人协作完成任务等评估维度[34]。

5.2 大语言模型作为机器人规划器

大语言模型（LLM）为机器人任务规划带来了全新的范式：

SayCan (2022, Google)：将LLM的常识推理能力与机器人技能库的可行性评估相结合，LLM负责高层次的"说什么"，技能价值函数评估"能做什么"，实现了复杂长时域任务的分解执行[35]；
PaLM-E (2023, Google & TU Berlin)：将连续传感器数据（机器人摄像头图像、状态估计）直接编码为语言嵌入加入到LLM的输入序列，使语言模型可以在物理世界中"看见"和"行动"[36]；
VoxPoser (2024, Stanford)：通过LLM生成3D体素空间中的交互轨迹，将语言指令直接映射为物理约束和路径规划，无需训练即可完成零样本操纵任务[37]；
Code as Policies (CaaP, 2023, Google)：LLM生成应用程序代码片段作为机器人控制策略，利用编程语言的抽象能力（循环、条件、组合）实现复杂控制逻辑[38]。

5.3 具身Agent在开放世界中的学习

开放世界环境（如Minecraft）为具身AI研究提供了理想的"数字沙盒"：

Voyager (2023, NVIDIA & Caltech)：第一个由LLM驱动的终身学习具身Agent，在Minecraft中自动发现技能、收集知识并持续探索，无需人工干预[39]；
Video PreTraining (VPT, 2022, OpenAI)：先从互联网上大量无标签Minecraft视频中通过逆动力学模型预训练，再微调少量有标签数据，使得Agent学会了制造工具等复杂行为链[40]；
MineDojo (2022, NVIDIA)：将Minecraft作为研究具身Agent的开放框架，包含模拟器、知识库和基准任务，被广泛用于研究开放式任务规划与多模态指令跟随[41]。

5.4 物理直觉与反事实推理

物理AI的一个核心难题是物理直觉（Intuitive Physics）——智能体对重力、碰撞、稳定性、物体持久性等物理概念的内隐理解。这项工作受发展心理学的启发（Piaget的认知发展理论指出，婴儿在出生后一年内逐步形成对物理世界的朴素理解）：

物理场景推理（Physion, MIT + DeepMind, 2022）：通过呈现虚拟物理场景并问"接下来会发生什么？"，要求模型预测物体运动轨迹的多选基准测试[42]；
3D物理推理基准（CLEVRER/MOST, 2022）：要求智能体在视觉观察后回答关于物体交互的反事实问题（"如果蓝色的球没有撞上红色的球，会发生什么？"）[43]；
神经物理学引擎（Neural Physics Engine, MIT, 2017）：将场景中物体的交互建模为可微分的图网络，使神经网络可以执行端到端的物理推理。

5.5 神经符号方法

神经符号AI（Neural-Symbolic AI）试图弥合神经网络灵活性（处理高维非结构化的感觉数据）与符号系统可解释性（结构化推理）之间的鸿沟：

NS-DSR (2022, MIT)：神经符号描述状态表征——将场景中的物体及其关系提炼为符号描述，再基于这些符号进行长时域任务规划[44]；
Planning with Relational Abstractions (Lake等, 2017, NYU)：展示了从少量示范中学习符号化行动预条件（preconditions）和效果（effects）的方法。

六、主要厂商与产业格局

6.1 全球人形机器人厂商概览

2023-2025年的投融资热潮使物理AI产业进入了历史性的快速扩张期。以下为主要参与者：

美国阵营

Tesla (Optimus / Gen 2)

关键时间线：2021年AI Day首次公布概念 → 2022年原型机缓慢行走 → 2023年Gen 2展示了更流畅的行走和手指操控 → 2024-2025年内部工厂部署做简单物料分拣
技术路线：纯视觉感知 + 端到端神经网络 + FSD芯片复用
状态：已在Tesla超级工厂内进行真实任务测试。Elon Musk公开声称目标为"长期成本低于一辆汽车"（约$20,000/台）
参考：https://www.tesla.com/optimus

Figure AI (Figure 01 → 02)

融资历史：2023年A轮$70M → 2024年B轮$675M（投资者包括Microsoft、OpenAI、NVIDIA、Amazon创始人Jeff Bezos、Intel Capital）
技术亮点：与OpenAI深度合作的端到端视觉-语言-行动系统；Figure 02拥有6个RGB摄像头、6自由度手臂、12个自由度灵巧手
里程碑：2024年与BMW达成试点协议，在斯帕坦堡工厂承担车身部件搬运任务
参考：https://www.figure.ai

1X Technologies (EVE → NEO)

总部：挪威/美国
融资：2023年A轮$23.5M与B轮$100M（均由OpenAI领投）
产品线：EVE（轮式上层躯干，已在保安和物流场景商业部署）+ NEO（双足人形原型机，2024年首次展示，更注重安全性，采用软性材料而非金属外壳）
技术路线：强化学习 + 模仿学习 + 远程操作数据收集
参考：https://www.1x.tech

Boston Dynamics (Atlas → 电动版Atlas)

2013年被Google收购 → 2017年出售给SoftBank → 2021年被Hyundai收购多数股权（约$1.1B估值）
2024年宣布退役液压版Atlas，推出全电动版Atlas——提高了关节灵活性、降低了噪音和维护成本
已将Spot四足机器人（装配Spot SDDK）作为AI研究平台广泛部署，拥有开放的API和超过1000个商业客户
参考：https://www.bostondynamics.com

Agility Robotics (Digit)

总部：俄勒冈州Albany
2024年与Amazon达成协议，在位于德克萨斯州的仓储物流中心测试Digit执行周转箱搬运任务
产品特点：反向膝关节设计（鸟腿形），专注于物流场景
参考：https://agilityrobotics.com

Apptronik (Apollo)

从UT Austin的Human Centered Robotics Lab孵化
2024年宣布与NVIDIA合作，Apollo被纳入Project GR00T生态；与Mercedes-Benz达成在人形机器人在地面物流和组装辅助中的试点合作
参考：https://apptronik.com

Sanctuary AI (Phoenix)

专注于通用人形机器人，技术路线强调通过远程操作（Teleoperation）收集高质量数据
第7代Phoenix手具有20个自由度，接近人类手部的灵活度
参考：https://www.sanctuaryai.com

中国阵营

Fourier Intelligence（傅利叶智能, GR-1 → GR-2）

GR-2于2024年推出：7自由度手臂、44个核心执行器模块（自研FSA驱动器）、整机重量约63kg
定位为通用人形机器人平台，面向科研和教育市场推广
参考：https://www.fftai.com

Unitree（宇树科技, H1 → G1）

H1以超过3.3m/s的行走速度创造了当时人形机器人的速度纪录
G1（2024年发布）以¥98,000起的售价大幅降低了人形机器人的准入门槛
产品策略：四足（Go2/B2）+ 双足（H1/G1）并行，面向开发者社区
参考：https://www.unitree.com

UBTECH（优必选, Walker S）

Walker S于2024年发布，定位面向智能制造场景
2023年在香港联交所上市
参考：https://www.ubtrobot.com

Xiaomi（小米, CyberOne → CyberDog 2）

CyberDog 2（2023）是四足开源平台，CyberOne人形仍处于原型阶段
CyberDog 2配备了NVIDIA Jetson NANO模块，支持开发者二次开发

6.2 产业平台与基础设施

NVIDIA Isaac / Project GR00T

GTC 2024上黄仁勋正式发布Project GR00T——"通用机器人基础模型"，定义了人形机器人的AI操作系统
Isaac平台提供完整的仿真-训练-部署管线：Isaac Sim（基于Omniverse的高保真仿真）→ Isaac Lab（RL和模仿学习框架）→ Isaac ROS（机器人操作系统内核）
多家合作伙伴已加入生态系统：Figure AI、Agility Robotics、Apptronik、Unitree、Fourier等
参考：https://developer.nvidia.com/isaac

Google DeepMind Robotics

Everyday Robots项目于2023年合并至Google DeepMind后战略性调整
模型层面持续发力：RT-2（2023）→ AutoRT + SARA-RT + RT-Trajectory（2024年发布的创新集群）
Gemini多模态模型正被探索作为机器人感知骨干网络
参考：https://deepmind.google

OpenAI再入机器人赛道

OpenAI于2020年关闭机器人团队后，2024年重新组建了新的机器人研究团队，强调"通用物理智能"方向
通过大规模财务投资（Figure AI、1X）维持技术与产业布局

6.3 高校与科研机构

Stanford University：Fei-Fei Li的SVL实验室在具身智能（Behavior Robot、VoxPoser、AI for Robot Learning）方向持续产出高水平成果；
UC Berkeley (BAIR/RAIL)：Pieter Abbeel、Sergey Levine的团队是机器人基础模型（RT-2、Octo）、扩散策略、深度RL的学术重镇；
MIT CSAIL：Improbable AI Lab（Pulkit Agrawal）、Robot Locomotion Group（Sangbae Kim）在人形机器人全身控制和敏捷移动方面具有国际领先地位；
CMU Robotics Institute：Deepak Pathak团队在无监督机器人技能学习方面取得了突破（RMA、Learning to Walk by Watching）；
ETH Zurich：Marco Hutter团队（Robotics Systems Lab）的ANYmal四足机器人是全身控制和Sim2Real迁移的标杆平台[31]；
中国高校：清华大学（Tien-Arm轻量化灵巧臂）、上海交通大学（CyberForce人形机器人）、北京理工大学（仿人机器人"汇童"）、浙江大学（腿足机器人"绝影"）等在人形机器人本体设计和低层控制方面有深厚积累。

七、未来展望与核心挑战

7.1 核心挑战

数据匮乏：与自然语言处理不同，机器人数据获取成本极高，需要物理硬件、精心的示范设计、防止硬件磨损。高质量的多任务、多场景机器人数据集仍以每年翻倍的速度增长，但离大语言模型的数量级（万亿token）相差甚远。
泛化鸿沟：当前最先进的机器人系统在受控实验室环境中表现优秀，但在面对未曾经历过光照明暗变化、物体摆放偏移、动态障碍物时，性能急剧下降——从95%降到30%。零样本泛化仍是最大瓶颈之一。
Sim2Real残差：尽管物理仿真精度不断提高，但仿真器与真实世界之间始终存在不可忽略的系统差距（Reality Gap），尤其在摩擦、接触变形、软体材料等高非线性物理现象中。
硬件-软件协同设计：当前人形机器人硬件设计（执行器、传感器、材料、能量密度）和AI算法（控制策略、感知管道）虽然在各自领域快速进步，但两者之间缺乏深度协同优化。形态计算的理论洞见尚未在工程实践中被充分应用。

7.2 未来方向

统一的机器人基础模型：类似于GPT-4在语言领域的地位，构建一个能够同时处理感知、规划、控制的机器人基础模型——无论机器人的形态、任务或工作环境——是当前研究的圣杯。
仿真+互联网数据双轮驱动：CEB（The Internet of Robot Data Observation，2024）等前沿工作正在探索如何从互联网视频中直接学习机器人技能，而无需消耗昂贵的实体机器人操作时间。
AI-driven机器人硬件设计：强化学习和生成设计正在被引入机器人本体的自动化设计——用算法在虚拟空间中"进化"出最优的形态、材料分布和执行器布局。
物理世界的基础模型与推理：开发具备物理常识的视觉-语言模型，能对物体的物理属性（质量、柔度、重心、摩擦系数）做出合理预测，为零样本操作策略提供先验知识。

八、结论

物理AI正经历从"实验室演示"到"真实世界部署"的历史性跨越。在理论层面，具身认知运动提供的概念工具——可供性、自由能原理、形态计算——为理解物理智能的本质提供了深刻的洞察；在工程层面，深度学习革命和基础模型范式为机器人系统的能力扩展提供了前所未有的技术杠杆；在产业层面，风险资本的巨量注入和科技巨头的战略布局为物理AI的商业化铺平了道路。

然而，物理AI距离"通用物理智能"的终极目标还有漫长的道路：从数据的数量级扩展到跨任务泛化的根本性突破，从仿真与真实世界的系统差距弥合到硬件-软件协同优化的革命性设计方法——每一个挑战都可能催生新的科学发现和工程创新。正如Rodney Brooks在30年前所提醒的：物理世界的智能，才是真正的硬核AI。

参考文献

[1] Wiener, N. (1948). Cybernetics: Or Control and Communication in the Animal and the Machine. MIT Press. https://mitpress.mit.edu/9780262730099/cybernetics/

[2] Brooks, R. A. (1986). A robust layered control system for a mobile robot. IEEE Journal on Robotics and Automation, 2(1), 14–23. https://doi.org/10.1109/JRA.1986.1087032

[3] Brooks, R. A. (1990). Elephants don't play chess. Robotics and Autonomous Systems, 6(1-2), 3–15. https://doi.org/10.1016/S0921-8890(05)80025-9

[4] Newell, A. & Simon, H. A. (1976). Computer science as empirical inquiry: Symbols and search. Communications of the ACM, 19(3), 113–126. https://doi.org/10.1145/360018.360022

[5] Varela, F., Thompson, E. & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press. https://mitpress.mit.edu/9780262720212/the-embodied-mind/

[6] Pfeifer, R. & Bongard, J. (2006). How the Body Shapes the Way We Think: A New View of Intelligence. MIT Press. https://mitpress.mit.edu/9780262162395/how-the-body-shapes-the-way-we-think/

[7] O'Regan, J. K. & Noë, A. (2001). A sensorimotor account of vision and visual consciousness. Behavioral and Brain Sciences, 24(5), 939–973. https://doi.org/10.1017/S0140525X01000115

[8] Thelen, E. & Smith, L. B. (1994). A Dynamic Systems Approach to the Development of Cognition and Action. MIT Press. https://mitpress.mit.edu/9780262700597/a-dynamic-systems-approach-to-the-development-of-cognition-and-action/

[9] Gibson, J. J. (1979). The Ecological Approach to Visual Perception. Houghton Mifflin. https://www.taylorfrancis.com/books/mono/10.4324/9780203767764/ecological-approach-visual-perception-james-gibson

[10] Moravec, H. (1988). Mind Children: The Future of Robot and Human Intelligence. Harvard University Press. https://www.hup.harvard.edu/catalog.php?isbn=9780674576186

[11] OpenAI, Andrychowicz, M., Baker, B., et al. (2018). Learning dexterous in-hand manipulation. arXiv:1808.00177. https://arxiv.org/abs/1808.00177

[12] Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. arXiv:2108.07258. https://arxiv.org/abs/2108.07258

[13] Brohan, A., Brown, N., Carbajal, J., et al. (2022). RT-1: Robotics Transformer for real-world control at scale. CoRL 2022. arXiv:2212.06817. https://arxiv.org/abs/2212.06817

[14] Brohan, A., Brown, N., Carbajal, J., et al. (2023). RT-2: Vision-Language-Action models transfer web knowledge to robotic control. arXiv:2307.15818. https://arxiv.org/abs/2307.15818

[15] Open X-Embodiment Collaboration (2023). Open X-Embodiment: Robotic learning datasets and RT-X models. arXiv:2310.08864. https://arxiv.org/abs/2310.08864

[16] Team Octo (2024). Octo: An open-source generalist robot policy. RSS 2024. arXiv:2405.12213. https://arxiv.org/abs/2405.12213

[17] Kim, M. J., Pertsch, K., Karamcheti, S., et al. (2024). OpenVLA: An open-source vision-language-action model. arXiv:2406.09246. https://arxiv.org/abs/2406.09246

[18] Friston, K. (2010). The free-energy principle: A unified brain theory? Nature Reviews Neuroscience, 11, 127–138. https://doi.org/10.1038/nrn2787

[19] Friston, K., FitzGerald, T., Rigoli, F., et al. (2016). Active inference and learning. Neuroscience & Biobehavioral Reviews, 68, 862–879. https://doi.org/10.1016/j.neubiorev.2016.06.022

[20] Pezzato, C., Ferrari, R. & Hernández, C. M. (2023). Active inference for autonomous robots. Frontiers in Robotics and AI, 10. https://doi.org/10.3389/frobt.2023.1099991

[21] Rao, R. P. N. & Ballard, D. H. (1999). Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. Nature Neuroscience, 2, 79–87. https://doi.org/10.1038/4580

[22] Adams, R. A., Shipp, S. & Friston, K. J. (2013). Predictions not commands: Active inference in the motor system. Brain Structure and Function, 218, 611–643. https://doi.org/10.1007/s00429-012-0475-5

[23] Detry, R., Kraft, D., Kroemer, O., et al. (2017). Learning grasp affordance densities. Paladyn, Journal of Behavioral Robotics, 8(1). https://doi.org/10.1515/pjbr-2017-0001

[24] Harnad, S. (1990). The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1-3), 335–346. https://doi.org/10.1016/0167-2789(90)90087-6

[25] NVIDIA Developer. (2024). Isaac Sim: Robotics simulation and synthetic data generation. https://developer.nvidia.com/isaac-sim

[26] Ha, D. & Schmidhuber, J. (2018). World models. arXiv:1803.10122. https://arxiv.org/abs/1803.10122

[27] Hafner, D., Pasukonis, J., Ba, J., & Lillicrap, T. (2023). Mastering diverse domains through world models. arXiv:2301.04104. https://arxiv.org/abs/2301.04104

[28] Bruce, J., Anand, A., Maksymets, O., et al. (2024). UniSim: A unified simulation framework for embodied AI. arXiv:2405.04309. https://arxiv.org/abs/2405.04309

[29] Chi, C., Feng, S., Du, Y., et al. (2023). Diffusion policy: Visuomotor policy learning via action diffusion. RSS 2023. arXiv:2303.04137. https://arxiv.org/abs/2303.04137

[30] Zhao, T. Z., Kumar, V., Levine, S., & Finn, C. (2023). Learning fine-grained bimanual manipulation with low-cost hardware. CoRL 2023. arXiv:2304.13705. https://arxiv.org/abs/2304.13705

[31] Hwangbo, J., Lee, J., Dosovitskiy, A., et al. (2019). Learning agile and dynamic motor skills for legged robots. Science Robotics, 4(26), eaau5872. https://doi.org/10.1126/scirobotics.aau5872

[32] Li, R. & Adelson, E. H. (2020). GelSight: High-resolution robot tactile sensors for estimating geometry and force. Sensors, 20(3), 719. https://www.mdpi.com/1424-8220/20/3/719

[33] Li, C., Xia, F., Martın-Martın, R., & Savarese, S. (2022). BEHAVIOR-1K: A benchmark for embodied AI with 1,000 everyday activities. NeurIPS 2022 Datasets and Benchmarks. arXiv:2209.04266. https://arxiv.org/abs/2209.04266

[34] Puig, X., Shu, T., Li, S., et al. (2023). Habitat 3.0: A co-habitat for humans, avatars and robots. arXiv:2310.13724. https://arxiv.org/abs/2310.13724

[35] Ahn, M., Brohan, A., Brown, N., et al. (2022). Do as I can, not as I say: Grounding language in robotic affordances. CoRL 2022. arXiv:2204.01691. https://arxiv.org/abs/2204.01691

[36] Driess, D., Xia, F., Sajjadi, M. S. M., et al. (2023). PaLM-E: An embodied multimodal language model. arXiv:2303.06460. https://arxiv.org/abs/2303.06460

[37] Huang, W., Wang, C., Zhang, R., et al. (2024). VoxPoser: Composable 3D value maps for robotic manipulation with language models. RSS 2024. arXiv:2307.05973. https://arxiv.org/abs/2307.05973

[38] Liang, J., Huang, W., Xia, F., et al. (2023). Code as Policies: Language model programs for embodied control. RSS 2023. arXiv:2209.07753. https://arxiv.org/abs/2209.07753

[39] Wang, G., Xie, Y., Jiang, Y., et al. (2023). Voyager: An open-ended embodied agent with large language models. NeurIPS 2023. arXiv:2305.16291. https://arxiv.org/abs/2305.16291

[40] Baker, B., Akkaya, I., Zhokhov, P., et al. (2022). Video PreTraining (VPT): Learning to act by watching unlabeled online videos. NeurIPS 2022. arXiv:2206.11795. https://arxiv.org/abs/2206.11795

[41] Fan, L., Wang, G., Jiang, Y., et al. (2022). MineDojo: Building open-ended embodied agents with internet-scale knowledge. NeurIPS 2022. arXiv:2206.08853. https://arxiv.org/abs/2206.08853

[42] Bear, D., Bapst, V., Kansky, K., et al. (2022). Physion: Evaluating physical scenario understanding. Advances in Neural Information Processing Systems, 35. https://proceedings.neurips.cc/paper_files/paper/2022/hash/43574103853a48b4e79a8c2b02f5f646-Abstract-Datasets_and_Benchmarks.html

[43] Yi, K., Gan, C., Li, Y., et al. (2019). CLEVRER: Collision events for video representation and reasoning. NeurIPS 2019. arXiv:1910.01442. https://arxiv.org/abs/1910.01442

[44] Liu, J., Shah, R., Hughes, M. C., & Liang, P. (2022). NS-DSR: Neural symbolic descriptive state representation for long-horizon task planning. AAAI 2022. https://arxiv.org/abs/2112.08569

[45] Lake, B. M., Ullman, T. D., Tenenbaum, J. B., & Gershman, S. J. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253. https://doi.org/10.1017/S0140525X16001837

本文发布于2026年6月6日，所有参考文献链接截至发稿时均可访问。部分arXiv预印本可能有最新版本，建议读者以最新版本为准。

物理AI具身智能人形机器人基础模型Sim2Real世界模型

Back to Blog

物理AI研究进展综述：从具身认知到通用机器人智能

2026-06-06

9 min read

物理AI研究进展综述：从具身认知到通用机器人智能

摘要

关键词： 物理AI；具身智能；人形机器人；Sim2Real迁移；世界模型；基础模型；灵巧操作

一、引言

二、技术发展历史

2.1 控制论时代：智能的原初定义（1940s-1960s）

2.2 Brooks的颠覆：行为主义与包容架构（1980s）

"世界是其自身的最佳模型"——与其在机器人内部构建复杂的符号世界表征，不如让机器人直接与环境交互，通过感知-行动耦合产生自适应行为；
包容架构（Subsumption Architecture）——通过分层的行为模块（避障→漫游→探索），每层独立运作且相互抑制，实现无中心控制的涌现智能。

2.3 具身认知运动：理论奠基（1990s-2000s）

这一时期的重要理论贡献还包括：

感觉运动偶发理论（Sensorimotor Contingency Theory, O'Regan & Noë, 2001）：将感知重新定义为行动规则的主宰，而非被动的感觉输入处理[7]；
动态系统进路（Dynamical Systems Approach, Thelen & Smith, 1994）：将认知视为在时间中展开的动态系统，而非离散符号操作[8]；
生态心理学（Ecological Psychology, Gibson, 1979）：提出"可供性"（Affordance）概念——环境提供给生物的行动可能性是感知的直接对象，无需认知中介[9]。

2.4 Moravec悖论与深度学习革命（2000s-2010s）

2012年AlexNet在ImageNet上的突破，证明了深度卷积网络能从原始像素中学习高效特征；
2015年DeepMind的深度Q网络（DQN）从原始像素学习玩Atari游戏，展示了端到端强化学习的潜力；
2016年Schulman等的PPO算法和Lillicrap等的DDPG算法，为连续控制问题提供了稳定的深度RL框架；
2017年OpenAI的Dactyl五指灵巧手证明了，通过域随机化（Domain Randomization）的Sim2Real方法，可以在仿真中训练的操纵策略直接在实体机器人上零样本迁移[11]。

2.5 基础模型时代：机器人学的GPT时刻（2020s）

OpenVLA (2024)：第一个完全开源的行为基础模型，在7B参数的视觉-语言模型基础上微调为机器人行动策略，推动了机器人研究的民主化[17]。

三、理论基础

物理AI的理论根基跨越了认知科学、神经科学、物理学和计算机科学多个领域，形成了丰富的概念工具包。

3.1 自由能原理与主动推理

感知（Perception）——调整信念以拟合感觉输入；
行动（Action）——改变环境以使感觉输入符合信念。

3.2 预测编码与运动控制

3.3 可供性理论与生态心理学

3.4 符号落地问题

3.5 形态计算

四、主要研究方向

4.1 机器人基础模型（Foundation Models for Robotics）

代表工作：

RT-2 (2023)：将视觉-语言模型（PaLM-E）扩展到视觉-语言-行动（VLA）模型，在Web数据上预训练后微调机器人示范数据，展示了从"看到番茄"到"互联网知识告诉它番茄是红色的、可抓握的、可以放到篮子里"的跨模态推理能力[14]。
π₀（Pi-Zero, 2025）：2联合X和斯坦福等机构提出的VLA模型（arXiv在审），在RT-2基础上加入了流匹配（Flow Matching）行动生成策略，显著提升了复杂长时域操纵任务的性能。
Octo (2024)：基于Transformer的开放机器人Transformers模型，使用80万条机器人示范数据的混合数据集训练，可通过微调适配新任务和新机器人平台[16]。

关键挑战：数据稀缺、异构性（不同机器人具有不同的运动学、传感器配置）、任务规范形式不统一。

4.2 Sim2Real迁移学习

关键技术路径包括：

域随机化（Domain Randomization, Open AI 2017）：在仿真中随机化物理参数（摩擦力、质量、颜色、光照），迫使策略学习鲁棒的特征表示，使得真实世界的"陌生的"物理参数仅被视为另一个随机化实例[11]；
系统辨识（System Identification）：建立从现实世界到仿真参数的逆向映射，使得仿真器尽可能逼近真实物理特征，典型工具有PyBullet、MuJoCo 3.0；
域适配（Domain Adaptation）：通过对抗训练或特征对齐学习域不变表征。

代表性平台包括NVIDIA Isaac Sim（基于Omniverse的实时物理仿真）、Meta Habitat 3.0（支持人机交互的具身AI仿真器）、Google DeepMind MuJoCo 3.0等[25]。

4.3 世界模型（World Models）

关键进展：

DreamerV3 (2023)：DeepMind的Hafner等人提出的强化学习世界模型，在学习Atari游戏和机器人控制任务时，完全基于模型预测进行规划，无需真实环境交互即可学习策略[27]；
DayDreamer (2023)：将Dreamer架构直接部署于实体机器人上的零样本Sim2Real实现，展示了世界模型可以从真实世界的感官输入流中直接学习；
UniSim (2024)：Meta AI提出的统一仿真框架，融合了视觉、物理和语义信息，支持零样本组装和交互式物理推理[28]。

4.4 扩散策略与模仿学习

与传统方法（高斯混合模型、隐变量模型、自回归Transformer）相比，扩散策略具有以下优势：

捕获多模态行动分布（同一个场景可以有多个合法的抓取方式）
处理基于视觉的高维行动空间
训练稳定，对超参数不敏感

衍生工作包括：

Action Chunking with Transformers (ACT, Zhao等, 2023)：使用CVAE编码-解码架构将行动序列压缩为隐变量，在精细操作任务（如穿针、折叠衣物）上实现了人类水平的表现[30]；
3D扩散策略（Ze等, 2024）：将3D视觉特征引入扩散策略，实现了基于点云表示的零样本抓取规划。

4.5 全身控制与移动操作

关键工作：

ETH Zurich ANYmal系列：四足机器人在复杂地形上的敏捷运动（攀爬、跳跃、滑行），利用RL在仿真中训练的策略直接部署到实体，展示了全身控制的潜力[31]；
MIT Improbable AI Lab：通过"分层RL+模型预测控制"的混合架构，实现了人形机器人的双手协调操作和动态平衡；
Stanford HumanPlus (2024)：使用单一RGB摄像头观察人类示范，通过模仿学习将运动轨迹映射到人形机器人，实现了无需精密传感的全身技能迁移。

4.6 灵巧操作与触觉感知

灵巧操作（Dexterous Manipulation）处理的是物理AI中最困难的问题之一——用高自由度机械手完成精细操作任务。

关键工作：

OpenAI Dactyl (2018)：Shadow Hand五指灵巧手通过深度RL+域随机化实现了单手魔方翻转[11]；
MIT GelSight触觉传感：基于光学原理的高分辨率触觉传感器（2010-2022），能够检测接触力的空间分布、物体纹理和表面滑动，被视为触觉感知领域的"Imagenet时刻"[32]；
TA-CO (Tactile-Aware Control)：2024年MIT和Meta AI联合提出的触觉-视觉融合框架，将触觉信号编码为深度特征，与视觉特征联合训练操作策略，在"盲操作"（无视觉反馈）任务中依然保持高鲁棒性。

五、当前热点与具身智能

5.1 具身智能基准测试

评估具身智能系统的进展需要一个标准化的度量体系。近年涌现的基准测试包括：

BEHAVIOR-1K (2022, Stanford)：包含1000种日常家务任务的物理仿真基准，涵盖物体操作、重组、清洁等类别，被广泛用于评估长时域任务计划能力和操作精度[33]；
ALFRED (2020, Allen AI)：基于AI2-THOR仿真器的任务导向基准，Agent需要根据自然语言指令完成多步操作，评估视觉-语言-行动的联合推理能力；
Habitat 3.0 Challenge (2024, Meta)：支持人机协作的具身AI基准，新增了多人参与、人类与机器人协作完成任务等评估维度[34]。

5.2 大语言模型作为机器人规划器

大语言模型（LLM）为机器人任务规划带来了全新的范式：

SayCan (2022, Google)：将LLM的常识推理能力与机器人技能库的可行性评估相结合，LLM负责高层次的"说什么"，技能价值函数评估"能做什么"，实现了复杂长时域任务的分解执行[35]；
PaLM-E (2023, Google & TU Berlin)：将连续传感器数据（机器人摄像头图像、状态估计）直接编码为语言嵌入加入到LLM的输入序列，使语言模型可以在物理世界中"看见"和"行动"[36]；
VoxPoser (2024, Stanford)：通过LLM生成3D体素空间中的交互轨迹，将语言指令直接映射为物理约束和路径规划，无需训练即可完成零样本操纵任务[37]；
Code as Policies (CaaP, 2023, Google)：LLM生成应用程序代码片段作为机器人控制策略，利用编程语言的抽象能力（循环、条件、组合）实现复杂控制逻辑[38]。

5.3 具身Agent在开放世界中的学习

开放世界环境（如Minecraft）为具身AI研究提供了理想的"数字沙盒"：

Voyager (2023, NVIDIA & Caltech)：第一个由LLM驱动的终身学习具身Agent，在Minecraft中自动发现技能、收集知识并持续探索，无需人工干预[39]；
Video PreTraining (VPT, 2022, OpenAI)：先从互联网上大量无标签Minecraft视频中通过逆动力学模型预训练，再微调少量有标签数据，使得Agent学会了制造工具等复杂行为链[40]；
MineDojo (2022, NVIDIA)：将Minecraft作为研究具身Agent的开放框架，包含模拟器、知识库和基准任务，被广泛用于研究开放式任务规划与多模态指令跟随[41]。

5.4 物理直觉与反事实推理

物理场景推理（Physion, MIT + DeepMind, 2022）：通过呈现虚拟物理场景并问"接下来会发生什么？"，要求模型预测物体运动轨迹的多选基准测试[42]；
3D物理推理基准（CLEVRER/MOST, 2022）：要求智能体在视觉观察后回答关于物体交互的反事实问题（"如果蓝色的球没有撞上红色的球，会发生什么？"）[43]；
神经物理学引擎（Neural Physics Engine, MIT, 2017）：将场景中物体的交互建模为可微分的图网络，使神经网络可以执行端到端的物理推理。

5.5 神经符号方法

神经符号AI（Neural-Symbolic AI）试图弥合神经网络灵活性（处理高维非结构化的感觉数据）与符号系统可解释性（结构化推理）之间的鸿沟：

NS-DSR (2022, MIT)：神经符号描述状态表征——将场景中的物体及其关系提炼为符号描述，再基于这些符号进行长时域任务规划[44]；
Planning with Relational Abstractions (Lake等, 2017, NYU)：展示了从少量示范中学习符号化行动预条件（preconditions）和效果（effects）的方法。

六、主要厂商与产业格局

6.1 全球人形机器人厂商概览

2023-2025年的投融资热潮使物理AI产业进入了历史性的快速扩张期。以下为主要参与者：

美国阵营

Tesla (Optimus / Gen 2)

关键时间线：2021年AI Day首次公布概念 → 2022年原型机缓慢行走 → 2023年Gen 2展示了更流畅的行走和手指操控 → 2024-2025年内部工厂部署做简单物料分拣
技术路线：纯视觉感知 + 端到端神经网络 + FSD芯片复用
状态：已在Tesla超级工厂内进行真实任务测试。Elon Musk公开声称目标为"长期成本低于一辆汽车"（约$20,000/台）
参考：https://www.tesla.com/optimus

Figure AI (Figure 01 → 02)

融资历史：2023年A轮$70M → 2024年B轮$675M（投资者包括Microsoft、OpenAI、NVIDIA、Amazon创始人Jeff Bezos、Intel Capital）
技术亮点：与OpenAI深度合作的端到端视觉-语言-行动系统；Figure 02拥有6个RGB摄像头、6自由度手臂、12个自由度灵巧手
里程碑：2024年与BMW达成试点协议，在斯帕坦堡工厂承担车身部件搬运任务
参考：https://www.figure.ai

1X Technologies (EVE → NEO)

总部：挪威/美国
融资：2023年A轮$23.5M与B轮$100M（均由OpenAI领投）
产品线：EVE（轮式上层躯干，已在保安和物流场景商业部署）+ NEO（双足人形原型机，2024年首次展示，更注重安全性，采用软性材料而非金属外壳）
技术路线：强化学习 + 模仿学习 + 远程操作数据收集
参考：https://www.1x.tech

Boston Dynamics (Atlas → 电动版Atlas)

2013年被Google收购 → 2017年出售给SoftBank → 2021年被Hyundai收购多数股权（约$1.1B估值）
2024年宣布退役液压版Atlas，推出全电动版Atlas——提高了关节灵活性、降低了噪音和维护成本
已将Spot四足机器人（装配Spot SDDK）作为AI研究平台广泛部署，拥有开放的API和超过1000个商业客户
参考：https://www.bostondynamics.com

Agility Robotics (Digit)

总部：俄勒冈州Albany
2024年与Amazon达成协议，在位于德克萨斯州的仓储物流中心测试Digit执行周转箱搬运任务
产品特点：反向膝关节设计（鸟腿形），专注于物流场景
参考：https://agilityrobotics.com

Apptronik (Apollo)

从UT Austin的Human Centered Robotics Lab孵化
2024年宣布与NVIDIA合作，Apollo被纳入Project GR00T生态；与Mercedes-Benz达成在人形机器人在地面物流和组装辅助中的试点合作
参考：https://apptronik.com

Sanctuary AI (Phoenix)

专注于通用人形机器人，技术路线强调通过远程操作（Teleoperation）收集高质量数据
第7代Phoenix手具有20个自由度，接近人类手部的灵活度
参考：https://www.sanctuaryai.com

中国阵营

Fourier Intelligence（傅利叶智能, GR-1 → GR-2）

GR-2于2024年推出：7自由度手臂、44个核心执行器模块（自研FSA驱动器）、整机重量约63kg
定位为通用人形机器人平台，面向科研和教育市场推广
参考：https://www.fftai.com

Unitree（宇树科技, H1 → G1）

H1以超过3.3m/s的行走速度创造了当时人形机器人的速度纪录
G1（2024年发布）以¥98,000起的售价大幅降低了人形机器人的准入门槛
产品策略：四足（Go2/B2）+ 双足（H1/G1）并行，面向开发者社区
参考：https://www.unitree.com

UBTECH（优必选, Walker S）

Walker S于2024年发布，定位面向智能制造场景
2023年在香港联交所上市
参考：https://www.ubtrobot.com

Xiaomi（小米, CyberOne → CyberDog 2）

CyberDog 2（2023）是四足开源平台，CyberOne人形仍处于原型阶段
CyberDog 2配备了NVIDIA Jetson NANO模块，支持开发者二次开发

6.2 产业平台与基础设施

NVIDIA Isaac / Project GR00T

GTC 2024上黄仁勋正式发布Project GR00T——"通用机器人基础模型"，定义了人形机器人的AI操作系统
Isaac平台提供完整的仿真-训练-部署管线：Isaac Sim（基于Omniverse的高保真仿真）→ Isaac Lab（RL和模仿学习框架）→ Isaac ROS（机器人操作系统内核）
多家合作伙伴已加入生态系统：Figure AI、Agility Robotics、Apptronik、Unitree、Fourier等
参考：https://developer.nvidia.com/isaac

Google DeepMind Robotics

Everyday Robots项目于2023年合并至Google DeepMind后战略性调整
模型层面持续发力：RT-2（2023）→ AutoRT + SARA-RT + RT-Trajectory（2024年发布的创新集群）
Gemini多模态模型正被探索作为机器人感知骨干网络
参考：https://deepmind.google

OpenAI再入机器人赛道

OpenAI于2020年关闭机器人团队后，2024年重新组建了新的机器人研究团队，强调"通用物理智能"方向
通过大规模财务投资（Figure AI、1X）维持技术与产业布局

6.3 高校与科研机构

Stanford University：Fei-Fei Li的SVL实验室在具身智能（Behavior Robot、VoxPoser、AI for Robot Learning）方向持续产出高水平成果；
UC Berkeley (BAIR/RAIL)：Pieter Abbeel、Sergey Levine的团队是机器人基础模型（RT-2、Octo）、扩散策略、深度RL的学术重镇；
MIT CSAIL：Improbable AI Lab（Pulkit Agrawal）、Robot Locomotion Group（Sangbae Kim）在人形机器人全身控制和敏捷移动方面具有国际领先地位；
CMU Robotics Institute：Deepak Pathak团队在无监督机器人技能学习方面取得了突破（RMA、Learning to Walk by Watching）；
ETH Zurich：Marco Hutter团队（Robotics Systems Lab）的ANYmal四足机器人是全身控制和Sim2Real迁移的标杆平台[31]；
中国高校：清华大学（Tien-Arm轻量化灵巧臂）、上海交通大学（CyberForce人形机器人）、北京理工大学（仿人机器人"汇童"）、浙江大学（腿足机器人"绝影"）等在人形机器人本体设计和低层控制方面有深厚积累。

七、未来展望与核心挑战

7.1 核心挑战

数据匮乏：与自然语言处理不同，机器人数据获取成本极高，需要物理硬件、精心的示范设计、防止硬件磨损。高质量的多任务、多场景机器人数据集仍以每年翻倍的速度增长，但离大语言模型的数量级（万亿token）相差甚远。
泛化鸿沟：当前最先进的机器人系统在受控实验室环境中表现优秀，但在面对未曾经历过光照明暗变化、物体摆放偏移、动态障碍物时，性能急剧下降——从95%降到30%。零样本泛化仍是最大瓶颈之一。
Sim2Real残差：尽管物理仿真精度不断提高，但仿真器与真实世界之间始终存在不可忽略的系统差距（Reality Gap），尤其在摩擦、接触变形、软体材料等高非线性物理现象中。
硬件-软件协同设计：当前人形机器人硬件设计（执行器、传感器、材料、能量密度）和AI算法（控制策略、感知管道）虽然在各自领域快速进步，但两者之间缺乏深度协同优化。形态计算的理论洞见尚未在工程实践中被充分应用。

7.2 未来方向

统一的机器人基础模型：类似于GPT-4在语言领域的地位，构建一个能够同时处理感知、规划、控制的机器人基础模型——无论机器人的形态、任务或工作环境——是当前研究的圣杯。
仿真+互联网数据双轮驱动：CEB（The Internet of Robot Data Observation，2024）等前沿工作正在探索如何从互联网视频中直接学习机器人技能，而无需消耗昂贵的实体机器人操作时间。
AI-driven机器人硬件设计：强化学习和生成设计正在被引入机器人本体的自动化设计——用算法在虚拟空间中"进化"出最优的形态、材料分布和执行器布局。
物理世界的基础模型与推理：开发具备物理常识的视觉-语言模型，能对物体的物理属性（质量、柔度、重心、摩擦系数）做出合理预测，为零样本操作策略提供先验知识。