具身智能的「大平行理论」会成真吗？

硅星人Pro 2026-06-18 10:53

过去一年，世界模型和具身智能几乎成了 AI 圈最热的两个关键词。但真正的问题是：机器人会不会像大语言模型一样，走出一条突然收敛、快速规模化的技术路线？

这篇文章来自 Fusion Fund 的两位投资人 Charlotte Xia 和 Matt Wong。他们以英伟达科学家 Jim Fan 提出的 “The Great Parallel” 为切口，讨论具身智能是否可能复刻 LLM 的发展路径：先通过大规模预训练建立世界理解，再通过行动和物理环境完成对齐。

文章没有急着给出结论，而是把当下具身智能的几个关键分歧摆了出来：世界模型到底是不是答案？机器人数据该怎么积累？创业公司的机会又会落在哪里？

以下是完整编译。

在深入讨论之前，让我们先明确本文中“世界模型”的定义。我们借鉴了清华大学 Jingtao Ding 等人最近的世界模型综述，其中提供的定义与本文语境契合：

世界模型围绕两个核心功能构建：（1）构建内部表示以理解世界的运作机制，（2）预测未来状态以模拟和指导决策。

在具身 AI 的语境下，决策指的是物理智能体（如机器人、自动驾驶车等系统）如何选择动作以在现实世界中完成目标。

模型分歧：VLA vs. 世界模型 vs. 其他

视觉-语言-动作（VLA）模型将观测（图像、语言指令和机器人状态）直接映射到机器人动作。具体而言，它承诺了可泛化的具身控制：预训练的视觉-语言模型（VLM）骨干提供了丰富的视觉-语义先验知识，动作解码器将这种语义理解转化为连续的运动指令。然而，VLM 通常在静态图像-文本数据集上预训练，继承的时空先验有限。从根本上说，VLA 在文本空间中运作——这是一种符号化的、与动作无关的抽象，可能缺乏物理世界的关键信息，例如时空理解。

近期，世界建模被广泛讨论为机器人学习中脱离 VLA 范式的范式转变。如上所述，许多现代世界模型是基于视频模型的机器人策略，将继承了丰富多样时空先验的扩散骨干与逆动力学模型配对，从生成的视频中提取控制动作——这一方法由 Yilun Du 等人在 UniPi 中开创。更新的研究更进一步，联合预测动作和未来世界状态，如 NVIDIA 最近的 DreamZero 论文。更深层的转变在于机器人学到了什么：不再是某个特定机器人应该如何移动，而是世界本身的物理动态，这可以跨形态迁移。由于世界模型是以动作为条件的，它还可以被交互式查询，让机器人通过反事实推理（“如果我这样做会怎样？”）并实时规划。相比之下，VLA 往往以单次方式将记忆的场景映射为动作，因此在训练中从未展示过的未见、非结构化环境中会陷入困境。尽管如此，在像素空间中进行推理仍然是开放研究问题，因此大多数世界模型目前缺乏推理能力。

事实上，最近的几篇论文已证明世界模型在样本效率和泛化能力上优于 VLA。NVIDIA 的 DreamZero 在未见任务和环境上实现了相对于最先进开源 VLA 的 2 倍提升。它还解锁了 VLA 无法高效利用的训练数据结构：VLA 需要重复的演示（例如“拾取杯子”执行 50 次），而 DreamZero 的一个单集是一段连续 5 分钟的遥操作序列，涵盖大约 42 个不同的子任务。

DreamZero 展示了对未见任务的零样本泛化。它在训练中缺失的 10 个任务上取得了可观的任务进展，而 VLA 在两种形态上都表现挣据。在 AgiBot G1 上，从零训练的 VLA 任务进度接近零（<1%），而 DreamZero 平均达到 39.5%。参见 Seonghyeon Ye 等人的论文《World Action Models are Zero-shot Policies》（arXiv, 2026）。

然而，该领域仍处于非常早期且不断演进的阶段，尚不清楚哪种模型架构将成为赢家。Physical Intelligence 公开承认，他们曾经花了一些时间押注世界模型将在任务泛化上大幅击败 VLA；这个赌注最初得到了回报，直到他们自己的 VLA 基线随着更多数据的引入赶了上来，也开始展示泛化能力。RoboArena 排行榜展示了一个高度动态的局面，其中在 VLA 模型和新兴世界模型之间持续的架构辩论中，分数仍在显著变动。

尽管如此，一些研究人员认为，从长远来看，视频生成骨干仍是次优的，无法单独实现物理智能。他们的论点是，机器人学不需要像素级别的视频保真度，而人类智能调用的感觉信息远比视觉更加多样——从触觉到本体感觉到前庭反馈——因此完全基于视觉的架构可能不是最终答案。这开辟了混合范式的空间，将 VLA 的语义理解用于高层任务分解，同时用世界模型的预测性、生成性动态来补充，逻辑是各自弥补对方的弱点。最宏大的赌注是“全能模型”，以 NVIDIA 最近发布的 Cosmos 3 为代表，它将视觉推理、世界生成和动作预测结合在一个系统中，原生地理解和生成文本、图像、视频、环境声音和动作，而不是拼接单独的模块。

数据扩展分歧

近几个月来几家机器人基础模型公司的发布表明，在收集和扩展什么数据上也没有收敛。Generalist 收集了 50 万小时 UMI 风格的物理交互数据，开创了 UMI 风格数据扩展作为机器人基础模型新底层的先河。Physical Intelligence 的 π0.7 利用 VLA 模型使用非常多样化的数据，这是机器人数据（多样环境中的野外和实验室数据：演示数据、失败数据、自主数据，跨不同机器人平台，包括静态和移动、单臂或双臂）和非机器人数据（多模态网络数据、自我中心人类数据）的组合。LingBot-VLA 是目前在 2 万小时遥操作机器人数据上训练的最大单一开源发布之一。Rhoda 认为网络视频是捕捉动态物理世界的最可扩展数据源，其系统在数亿小时的网络视频数据上进行预训练。

尽管这些团队押注的数据策略截然不同，但它们似乎正在汇聚于同一个原则：在现阶段，扩展数据和策划正确质量的数据，比模型架构的标签更重要。

如果我们相信具身 AI 遵循类似 LLM 的扩展定律，我们如何能触及互联网规模的数据来解决机器人问题？挑战的规模是巨大的：正如 Ken Goldberg 的著名框架所述，相对于当今大型语言和视觉模型背后的数据，机器人面临 10 万年的“数据鸿沟”。弥合它意味着找到实际可扩展的数据源。从第一性原理出发，大规模网络视频是行业可以利用的最丰富的视觉数据，如果模型能学会良好的动态并将学习迁移到机器人上的话。遥操作机器人数据是最不可扩展的，因为它通常需要高昂的设置成本，而且数据也缺乏多样性。处于中间的是通过轻量级可穿戴硬件（如头戴、腕戴相机）采集的第一人称视角数据，即自我中心视角，或 UMI（通用操作接口）风格的硬件框架或传感器手套，直接从人类演示中学习，而无需昂贵的机器人在回路遥操作。最终目标是尽可能少地使用机器人数据，但当前的机器人策略还不够泛化，遥操作短期内不会消失。

Chelsea Finn 在 CVPR 2026 Workshop 上展示的最新研究提供了一个早期信号。当预训练数据在场景和任务上达到足够的多样性时，人-机器人迁移开始涌现。关键的是，在足够多样化的机器人数据基础上，加入人类视频数据可以将机器人从未直接观察过的新泛化设置上的任务成功率几乎翻倍。性能上限随数据多样性而扩展，但该领域尚未确立什么是“足够”，或如何高效地达到。

世界模型的表示密度分歧

鉴于世界模型的初生状态，学术界和产业界都存在关于如何最佳地表示给定世界状态的结构性辩论。具体而言，它们在抽象级别上有所不同，这导致了在建模能力、样本效率、泛化、任务对齐、可解释性和计算成本方面的权衡。目前主要有三大学派：像素级、潜在级和显式 3D 几何表示。

像素级模型直接用原始像素预测世界，表示的密度确保了照片级的真实感和无损的世界投影。然而，它可能会优先考虑像素重建而非语义重要性，并可能导致冗余。此外，逐帧预测的视频生成模型计算成本很高。在具身 AI 中使用时，模型可能浪费大量能力去预测实际上对决策无关的高频细节（例如树上单独移动的树叶）。

显式 3D 几何模型优先考虑结构：不是重建每个像素，而是直接编码场景的几何配置——其内容的位置、形状和空间关系——作为模型推理的基元。几种方法处于不同的抽象级别。粒子方法在物体上散布密集的离散点以捕捉表面和体积；关键点更稀疏，仅保留少量具有语义含义的任务相关点；物体中心表示最为抽象，在相互作用的物体层面建模动态。每种方法适用于不同的任务：物体中心表示擅长多刚体操作，而粒子更好地捕捉可变形和非刚性物体。在静态状态之外，Wenlong 等人的 PointWorld 将动作本身表示为 3D 点流，这是一种与形态无关的表述。我们的投资组合公司 Sancho 使用基于粒子的表示，他们发现这种方法计算高效且能实现稳健的长视野导航。

潜在级模型用潜在空间中的紧凑特征集表示世界，这些特征是预测未来所必需的，并在学习和计算效率以及泛化能力上胜出。Yann LeCun 一直是潜在级模型的长期倡导者——在他 2022 年的论文中提出了联合嵌入预测架构（JEPA）。JEPA 将训练目标设定为预测下一个潜在向量，并训练专用编码器消除不利于预测的无关细节。Danijar Hafner 等人的 Dreamer 系列论文表明，智能体可以在潜在想象中学习行为。

为了调和这些结构性辩论，一个新兴学派主张打破这些单一范式之间的刚性边界，转而采用多级混合世界表示。在他们 2026 年的视角论文中，Jiajun Wu 等人提出了一种结构化的马尔可夫世界模型，它利用显式表示将世界模型直接地基于基础模型的推理空间——保持学习到的概念可解释——同时依赖隐式潜在特征来捕捉几何、纹理和物理的富表达、稠密复杂性。关键的是，这种混合方法是朝着构建稳健可泛化世界模型的一个令人兴奋的研究方向。

总体而言，具身 AI 在模型、数据和表示空间上仍存在实质性分歧。毕竟，LLM 领域也曾看起来同样碎片化——RNN、LSTM 等循环架构主导着该领域，卷积神经网络前景可期，注意力机制尚处于初生状态。然而，当 2017 年《Attention Is All You Need》发表并将 Transformer 确立为 LLM 时代的事实架构时，行业指数级起飞。有人可能会说，具身 AI 也正在为同样的收敛做准备。

“大平行”会成真吗？

2026 年，NVIDIA 的 Jim Fan 提出了“大平行”理论：具身 AI 将循与 LLM 相同技术增长弧线的论断。基础性的第一步是在统一的预训练范式上实现收敛，无论是模型架构还是数据扩展定律。但我们会很快看到预训练范式的收敛吗？如果会，收敛的速度会是多少？

我们认为，两个结构性瓶颈阻止了具身 AI 中类似的预训练收敛。

瓶颈一：该领域缺乏共享的成熟评估系统

LLM 之所以收敛，部分原因是 Arena AI 等基准平台给了社区一个共同的标尺。然而，具身 AI 由于结构性挑战尚无等价物。首先，该领域缺乏明确的基本事实。机器人的形态和任务比语言领域多样得多，而且成功往往是模糊的：如果两个机器人以不同方式拾取和放置物体，两者都不明显更优，也没有单一指标能捕捉泛化能力。其次，真实世界测试仍是评估的黄金标准，但成本高昂且不可扩展。第三，大多数基准只评估机器人的原子操作：特定物体的拾取和放置、已知楼层平面的导航等。这存在一种基准过拟合动态，社区专门针对已知评估迭代模型，这会通胀性能而不改善底层泛化能力。

对更可扩展的模拟基准的需求正在增加，但仿真到真实的差距仍然很大，需要人工努力来改善泛化。一个令人兴奋的研究方向是 Sherry Yang Lab 的 WorldGym，一个基于世界模型的策略评估环境，用于替代昂贵的真实世界机器人测试。RoboArena 是 2025 年发表的另一个有前景的方法。其核心洞察借鉴自 LLM 评估（Chatbot Arena）——不是固定基准，而是使用众包的双盲对比。但它受限于 DROID 平台硬件，这限制了谁可以参与，而且与成熟的 ML 基准相比，任务覆盖仍然非常有限。我们认为，在评估成熟且基准到部署的性能差距变小之前，模型分歧是理性的均衡。

瓶颈二：该领域的资本结构主动维持分歧

AMI Labs 基于 JEPA/潜在空间理论融资 10.3 亿美元。World Labs 基于显式 3D 表示融资 10 亿美元。Rhoda 基于其直接视频-动作模型融资 4.5 亿美元。Physical Intelligence 基于 VLA 融资 6 亿美元。每家公司都有数年的跑道让其理论充分发展，而市场压力不会强制它们做出决定，而且它们几乎没有激励去开源任何研究进展。

收敛的早期信号

尽管有结构性的理由认为分歧将长期存在，但也有收敛的早期信号。

在基于视频生成的世界模型方面，扩散 + 自回归混合模型是常见方法：在架构上，该领域历史上同时追求扩散和自回归生成骨干。扩散模型是现代视频生成的主要骨干，因为其迭代去噪自然地建模连续、时间连贯的输出。另一方面，自回归方法受益于强因果不确定性、进行高效树搜索推理的能力以及灵活的视野训练。但它受到误差传播的困扰，因为它必须以自己不完美的预测为条件。为了调和这一差异，我们越来越多地看到两者的混合。在 NeurIPS 2025 世界模型工作坊上，Yilun Du 指出，Diffusion Forcing 等方法为每个 token 分配独立的噪声级别，允许近未来被更充分地去噪，而远未来保持相对噪声状态。结果是一个具有下一 token 预测的灵活性的概率序列模型，同时又能实现全序列扩散的长视野引导。

当我们谈论实时控制时，分层系统仍是目前的实用解决方案：这一框架类似 Kahneman 的人类认知双过程理论：快速的系统 1 产生反应性动作，较慢的系统 2 处理语义、长视野推理和规划。两个力量解释了这种收敛。首先，语义规划和原始运动执行之间存在根本性的频率差距。鉴于当前的计算限制，在大众化硬件上同时编码互联网规模的先验并闭合 200 Hz 控制回路是不切实际的。其次，分层系统实现了跨形态的模块化泛化。推理和一般运动在不同机器人身体之间大部分是共享的，因此抽象的上层可以复用，而特定形态的微调则集中在处理操作和关节控制的下层。然而，端到端模型的反论是，它们定义为在单个梯度传递中训练整个网络，避免了在分别训练的层之间的接口处引入的信息损失，并让系统联合优化而不是担心梯度如何跨模块边界传播。

Figure 的 Helix 跨三个时间尺度分解堆栈。系统 2 以 7–9 Hz 缓慢推理目标；系统 1 以 200 Hz 将感知直接转化为全身关节目标；而在 Helix 02 中引入的系统 0 以 1 kHz 执行，处理平衡、接触和全身协调。

虽然许多公司在押注预训练解决泛化问题，但在短期内，在预训练范式完全收敛之前，持久的位置属于同时拥有模型开发和前沿部署的全栈玩家。公司可以设计定制的数据采集管线，并在不同模型架构上利用后训练，不仅优化性能指标，而且优化与业务结果挂钩的具体 ROI。我们认为，在短期内，护城河是通过部署形成的数据飞轮本身，而不是它之上的架构。

从更长远来看，如果收敛发生，我们可能会看到开源模型上的活动大幅增加，以缩小与专有模型的差距，可能会重演从 LLaMA 到 DeepSeek 的弧线。这种动态将在很大程度上受到领先 AI 国家的战略优先级塑造，其中几个国家已将开源发布作为核心重点，加速了能力扩散的全球步伐。中国深度整合的硬件供应链赋予了其生态系统在大宗商品化机器人硬件上的结构性成本优势，西方竞争对手将很难在价格上匹配。开源模型和便宜的硬件共同创造了一个新的部署表面：真正的机会在于解决最后一英里问题——将能力强大的模型和硬件可靠地部署到特定垂直领域（例如医疗、制造、物流），在那里数据混乱、延迟和 ROI 至关重要。这将催生一波新的参与者，他们可以利用开放权重和大宗商品化硬件来构建可防御的、垂直整合的部署。

创业机会

我们的兴趣领域映射到本文的两个时间视域：预训练范式收敛前的碎片化景观，以及如果收敛发生后的统一范式。在短期内，在主导预训练方法出现之前，我们看到最引人注目的机会在于评估、定向数据策划和同时拥有模型开发和前沿部署的全栈垂直整合商。收敛后，一旦物理交互标准建立且价值向下游迁移，我们可能会看到驱动部署优化的创业公司的新机会，无论是边缘/云端推理、记忆层还是其他。然而，细微差别在于，融资已经高度集中在基础模型公司，其中许多已经拥有前沿部署层。因此，收敛的速度与部署的速度在竞争，创业公司可能需要提前布局，在基础模型公司将部署触角扩展到足以使基础设施层成为被捕获市场而非争夺市场之前。

预收敛时代

全栈、垂直特定的整合商，同时拥有模型开发和前沿部署

在短期内，我们认为机器人领域最持久的价值创造将属于全栈、垂直特定的整合商——拥有模型开发、集成硬件并进行前沿部署的单一闭环公司。这一信念直接来自部署现实对该领域的教训：一个在基准上表现良好的模型与一个在客户现场交付价值的模型之间的差距，只有拥有真实生产循环的团队才能弥合，而这个循环不能由堆栈的任何单一层单独构建。没有部署的模型团队无法获得实际成熟能力的后训练信号。没有模型的硬件团队无法知道其设备在出货六个月后是否还会被使用。没有研究控制权的部署团队无法在现场失败时修复底层基元。

机器人控制策略的评估至关重要，世界模型在这里可以有用

机器人控制策略的评估是机器人技术栈中一个关键且投资不足的层。如上所述，当前方法陷入了三难困境：真实世界测试昂贵且难以大规模复现，手工制作的模拟器需要大量人工维护且存在仿真到真实的差距，而狭窄的任务特定基准无法捕捉泛化能力。World-Gymnast 提出不仅将世界模型用于评估，还作为强化学习的环境，在真实操作基准上大幅优于监督微调和基于仿真的强化学习。这些方法指向了一个新的范式：世界模型可以作为可扩展、可复现的评估和后训练基础设施，这可能是更广泛的机器人学习生态系统的基础能力解锁。

定向数据策划平台

我们交流过的多位研究人员指出，高质量数据策划仍是训练稳健世界模型的关键瓶颈。在预训练中，大多数世界模型在互联网规模视频和机器人演示视频上训练，确保任务、场景、运动和形态的多样性至关重要。在后训练中，需求转向了带有精细动作标签的特定形态数据（如手部姿态估计），以使模型在特定机器人上可控。随着任务变得更加灵巧，对力和触觉数据的融入的需求不断增长，以及超长视频（超越 5 秒片段）用于长视野生成。

然而，即使有了正确的数据，当前的世界模型在现实世界的物理理解上仍有不足，并会幻觉出物理故障。当它们扩展到任务关键型用例时，基于物理、时空一致的推演成为必不可少的。然而，当前的评估依赖于人类对松散定义的评分标准的标量偏好（如简单的通过/失败），而不是精确的物理奖励，这可以告诉我们哪个视频更好，但无法识别失败的时间、位置和类别。我们认为，构建一个稳健的世界模型评判器，需要更精细的标注方法，其中训练有素的专家提供物体和场景时空状态变化的推理轨迹。

更好的长视野任务记忆表示

为长视野机器人任务开发更好的记忆表示仍是一个开放研究问题。进展正沿两个前沿推进。在记忆层，核心挑战是存储什么和如何压缩。一些有趣的研究工作如 MEM（Torne 等人）用双模态方法解决这个问题：用于短视野回忆的稠密视频编码和用于长视野语义的自回归更新的语言摘要，而 MemER（Sridhar 等人）采用基于检索的方法，训练 VLM 提名和聚类跨越完整情节的任务相关关键帧。

在模型层，研究人员将记忆直接嵌入表示结构：显式几何记忆（3D 点云、NeRF、4D 运动动态）条件化视频生成骨干；通过测试时训练的持续学习，使模型学会选择性地压缩和向前传递任务相关信息，直接解决困扰基于 Transformer 的长视野任务方法的 KV 缓存爆炸问题；JEPA 风格的潜在预测将记忆维护为抽象嵌入，丢弃低层细节以保持记忆的语义压缩和有界。

后收敛时代

推理优化，通过边缘计算加速实时控制

当前的世界模型有很大的推理开销，无论是解码速度还是所需的计算资源，这阻止了实时闭环生成。对于具身 AI 而言，模型主要被托管在机器人本体上，以确保关键决策的延迟。为了解决这个问题，推理优化可以在硬件、软件和模型层面跨栈进行。在硬件层，NVIDIA 的机器人主要芯片是 Jetson Thor（用于先进人形机器人）和 Jetson Orin（工业和边缘机器人的广泛标准），我们期待它们继续突破边界。拥有模型开发的全栈整合商最终可能会专门构建其专有芯片以最大化模型效率。在软件层，像 Decart 这样的公司正在通过 CUDA 层面的内核优化突破延迟边界，主要应用在视频生成和游戏中，实时生成在那里至关重要。此外，还有许多其他技术正在被探索，如模型蒸馏、漂移模型和后训练量化以提高效率。NVIDIA 的 DreamZero 目前使用 2 块 GB200 以 7Hz 运行，这对实际部署不实用，但我们期待这可以进一步加速和优化。NVIDIA 新的开源 2.6B 世界模型 SANA-WM 能够在单张 H100 上生成 60 秒片段，以可比拟的视觉质量实现了 36 倍的吞吐量提升。然而，需要注意的是，云端加速可能无法迁移到每种形态的异构机载计算上。而且原始吞吐量只是一个代理：最终重要的 ROI 是任务完成率。在模型层，正在探索的技术包括潜在空间解码等。

（来源：硅星人Pro）

扫码下载app 最新资讯实时掌握

具身智能 AI

上一篇OpenAI抢后台，马斯克抢前台

下一篇当AI看病成为日常，阿福请医生回到「主驾」