“机器人领域仍处于蛮荒时代。”
这是英伟达机器人主管Jim Fan,在2025年,即将收官之际给出的判断。
乍一听,这个结论多少有些刺耳。
毕竟,在这一年里,我们已经看到机器人打乒乓球、打篮球,完成复杂的长程搬运与跨场景任务——

当然,也少不了各种翻车“冥”场面。

但就像Jim Fan,以及聪明的网友反复指出的那样:
很多演示,本质上只是从上百次尝试中,挑选出来的最好一次。

这背后,恰恰暴露出机器人领域至今缺乏统一、可复现的标准评测体系的核心问题。
也正因如此,几乎人人都能通过添加限定词,宣称自己达到了SOTA。

除此之外,Jim Fan还指出——
当前机器人硬件进展快于软件,但硬件可靠性不足,反而限制了软件的迭代速度;同时,主流的VLM→VLA技术范式本身也存在结构性问题。
以下为分享全文:
2025年,机器人领域教给我的3件事
所有人都在为vibe coding感到兴奋。在节日气氛中,请允许我分享一下我对“机器人领域狂野西部”的焦虑——这是我在2025年学到的3个教训。
硬件走在软件前面,但硬件可靠性严重限制了软件迭代速度
我们已经看到了极其精妙的工程杰作:Optimus、e-Atlas、Figure、Neo、G1等等。
但问题是,我们最好的AI还远没有把这些前沿硬件的潜力榨干。(机器人)身体的能力,明显强过大脑目前能发出的指令。
然而,要“伺候”这些机器人,往往需要一整个运维团队。
机器人不像人类那样会自我修复:过热、马达损坏、诡异的固件问题,几乎是日常噩梦。
错误一旦发生,就是不可逆、也不宽容的。
真正被scaling的,只有我的耐心。
机器人领域的基准测试,依然是一场史诗级灾难
在大模型世界里,人人都知道MMLU、SWE-Bench是怎么回事。
但在机器人领域没有任何共识:用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器,还是直接上真实世界?
按定义来说,每个人都是SOTA——因为每次发新闻,都会临时定义一个新的benchmark。
每个人都会从100次失败里,挑出那次最好看的demo。
到2026年,我们这个领域必须做得更好,不能再把可复现性和科学规范当成二等公民。
基于VLM的VLA路线,总感觉不太对
VLA指的是Vision-Language-Action(视觉-语言-动作)模型,目前这是机器人大脑的主流范式。
配方也很简单:拿一个预训练好的VLM checkpoint,在上面“嫁接”一个动作模块。
但仔细想想就会发现问题。VLM 本质上是被高度优化用来爬诸如视觉问答这类 benchmark的,这直接带来两个后果:
VLM的大多数参数,都服务于语言和知识,而不是物理世界; 视觉编码器被主动训练去丢弃低层细节,因为问答任务只需要高层理解,但对机器人来说,微小细节对灵巧操作至关重要。
因此,VLA 的性能没有理由随着VLM参数规模的增长而线性提升。问题出在预训练目标本身就不对齐。
相比之下,视频世界模型(video world model)显然是一个更合理的机器人策略预训练目标。我正在在这个方向上下重注。
在Jim Fan的推文下面,不少网友也表示了赞同。
有网友表示,硬件的容错能力确实非常重要:
硬件约束导致迭代变慢,是一个常被低估的瓶颈。软件可以高频更新,但物理系统必须建立在可靠的机械基础上,而这需要真实时间去验证和打磨。

硬件很关键,但数据很重要
在Jim Fan的讨论中,硬件被放到了核心位置,但与此同时,我们也发现数据作为一个核心元素被忽略了。
在机器人研究中,数据塑造模型能力,而模型的发挥又离不开硬件,这是其典型的全栈特性。
在今年,我们已经看到了像Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2等全新硬件本体。

从展示效果看,这些新硬件在运动能力上表现亮眼:
无论是宇树的翻跟头,还是小鹏机器人的步态控制,都已明显超出年初的平均水平,并且证明了大型机器人(成年人身高)也能像小型机器人一样灵活。
但真正现实的问题可能正如Jim和网友谈到的,如何在维持高性能的同时,进一步提升硬件可靠性,例如抗摔性、电池发热、长时间运行稳定性等工程层面的挑战。

在数据方面,今年最值得注意的例子之一是Generalist,它通过大量的数据规模证明了具身智能的Scaling law。

其中,数据越大,模型参数越高,模型在具体任务上的表现也就越好,符合我们在LLM上观察到的现象。

与此同时,也出现了像Sunday这样方便数据采集的定制化机器人硬件。

这套系统与机器人的手部协同设计,利用技能捕捉手套采集人类动作数据,并能以近90%的成功率转换为机器人可用数据。
同样受到关注的还有Egocentric-10K,一个汇集了1万小时工作数据的大型数据集。

可以说,在具身智能领域,数据的重要性已不言自明。但具体的数据路线仍未收敛:人类中心采集(可穿戴设备、Umi、视频)、真机遥操数据、仿真数据,以及互联网数据、数据模态、配比仍是开放问题。
2025机器人年度词汇——VLA
在模型方面,VLA毫无疑问是2025机器人领域最热的词汇。
根据伦敦国王学院、香港理工大学等研究机构的最新综述,仅2025年一年就发表了超200篇VLA工作。

前段时间更是有网友调侃道:2026年可能会有一万篇VLA工作。
那么,VLA到底是啥呢?
扫码下载app 最新资讯实时掌握
