「龙虾」们正在改造机器人，具身智能的下一步是什么？

腾讯科技 2026-03-29 07:35

AI正在加速进入物理世界，并开始改变具身智能机器人原有的运行方式。

在3月的OpenClaw火热出圈之前，开发者社区中已经有人将Agent接入机器人，并跑通了从指令到执行的完整链路。

有开发者把OpenClaw接入了一台真实的机器人。通过ROS 2（机器人操作系统框架）和WebRTC（实时通信技术），用户在Telegram或Discord上发一条消息，远在另一端的机器人就能接收指令，读取摄像头和传感器的信息，并在现实世界里完成抓取、移动等操作。这个项目在2月OpenClaw Hackathon（面向开发者的应用开发竞赛）中拿下了冠军。

这类项目深远的意义在于：机器人不再只是一个“被编程的执行体”，开始成为一个由 Agent 驱动的“自主行动系统”。

实际上，Agent接入机器人的探索就已经在行业中展开，并出现了一批具体的实践案例。

在海外，包括Google DeepMind、OpenAI以及特斯拉等厂商，已经在尝试将大模型能力引入机器人系统，让机器人能够理解自然语言指令，并在真实环境中完成操作；同时，英伟达等公司也在持续推进相关平台与工具建设，推动AI能力更容易接入真实设备。

在国内，包括宇树科技、大晓机器人等在内的一批厂商，也已经开始探索，将大模型与机器人系统结合，在真实场景中进行探索和落地尝试。

当Agent开始接管“身体”，具身智能机器人的核心驱动因素，正在发生怎样的变化？这一轮由Agent引发的重构，究竟会把机器人产业带向哪里？新的竞争，将围绕什么展开？

在博鳌亚洲论坛2026年年会上，商汤联合创始人、大晓机器人董事长王晓刚在会后交流中表示，具身智能正在经历一轮底层范式的重构——从以机器为中心的研发方式，转向“以人为中心”，更加依赖真实世界数据的研发体系。这不仅会改变技术路线，也将重塑整个产业的竞争逻辑。

商汤联合创始人、大晓机器人董事长王晓刚

围绕Agent时代下具身智能的范式变化、技术路径、成本结构及产业格局等关键问题，王晓刚做了逐一解答，以下为交流实录精华内容：

Q：随着AI从工具辅助角色走向具备执行能力的Agent，具身智能机器人的核心驱动力是否正在发生变化？

王晓刚：随着AI进入Agent时代，具身智能机器人正在经历一轮底层范式的变化。

首先，是数据获取方式的重构。我们提出了一种新的研究范式——“环境式数据采集（Ambient Data Collection）”。

过去的数据采集是“以机器为中心”，主要依赖人在实验室中操作设备、构建场景；而现在正转向“以人为中心”，通过让大量真实用户在真实生产生活环境中穿戴传感器来采集数据。这使数据来源从封闭场景走向开放世界，规模也从有限采集跃迁到大规模分布式采集。

这种变化直接带来了数据量级的跃升。过去几年，行业积累的机器人训练数据大约在10万小时量级，而在未来一到两年内，我们判断有机会达到千万小时量级，增长达到数百倍。这不仅会显著提升模型的泛化能力，也会同步拉动对算力与存储基础设施的需求，成为行业新的基础变量。

其次，是产业链重心的变化。随着数据和模型的重要性不断上升，具身智能的竞争正在从“硬件能力”逐步转向“模型能力+数据能力”的综合竞争。谁能够构建更具规模和质量的数据体系，谁的模型生态更具影响力，谁就更有可能在行业中占据主导地位。

最后，是算力体系与生态的重构。未来国产算力将逐步成为重要支撑，这要求模型从设计之初就具备良好的适配能力。

在这一背景下，模型与芯片之间的协同将更加紧密，模型影响力也将反过来影响算力生态的选择。因此，我们选择开源“开悟”世界模型3.0，一方面是为了推动开发者生态的形成，另一方面也是为了更好地完成对国产算力体系的适配与协同。

整体来看，Agent时代带来的不仅是能力的提升，更是从数据、模型到算力的系统性重构，具身智能的行业格局也将因此进入新一轮洗牌阶段。

Q：从技术路线来看，Agent时代与过去相比发生了哪些关键变化？具身智能正在向什么方向演进？

王晓刚：过去的主流路线，是基于“机器中心”的数据采集方式，结合VLA（Vision-Language-Action）模型——给定一个指令，模型直接输出机器人的动作参数或结构参数，本质上是一种从“指令到动作”的映射，但对真实物理世界的理解是相对有限的。

而现在，我们正在转向一条新的技术路径——“环境式数据采集 + 世界模型”。所谓世界模型，本质上是让模型去学习人类在真实环境中与世界交互的物理规律和行为逻辑，而不仅仅是完成指令到动作的映射。

沿着这条路线继续演进，我们认为具身智能有机会迎来类似ChatGPT那样的“关键跃迁时刻”，实现从可用到真正可规模化应用的跨越。

从短期来看，这两种路线更可能是协作关系。世界模型更像“大脑”，具备较强的预测和推理能力。当机器人接收到复杂任务时，世界模型会先在“脑海”中预演可能发生的场景，并进行规划；在执行具体动作时，则可以调用VLA模型完成操作。

如果执行结果与世界模型的预测不一致，就会再次调用世界模型进行重新规划。这种“规划+执行”的分工，是短期内比较现实的技术路径。

但从长期来看，随着能力的提升，世界模型有可能逐步吸收VLA的能力，实现一体化。

Q：在这一变化中，数据体系也在发生调整。训练机器人“世界模型”与VLA模型，在数据来源上有哪些关键差异？

王晓刚：训练世界模型通常需要三类数据。

第一类是互联网中的图像和文本数据，这些数据包含了大量物理规律，相当于“读书”，帮助模型学习物理定律以及人的行为逻辑，但仅靠这一类数据是不够的。

第二类是人类在真实环境中的行为数据，包括人是如何工作、生活以及与物理环境进行交互的，这是具身智能能力形成的关键基础。

第三类是少量的真机数据。因为即便模型已经理解了物理世界、也知道人是如何完成任务的，最终仍然需要将这些能力映射到具体机器人的参数体系上。

相比之下，VLA模型主要依赖真机数据这一类，路径更直接，但在泛化能力上存在一定限制。

Q：在“人形机器人的进阶与飞跃”分论坛上，几位参加也谈到具身智能的“ChatGPT时刻”，对于机器人实现跃迁时刻的行业判断存在分歧。有的嘉宾认为两年即可实现，也有人认为需要十年。您如何理解的？

王晓刚：大家对“ChatGPT时刻”的理解和侧重点不完全一样。

比如认为需要十年的人，更多是指机器人在现实世界中的大规模落地，比如进入家庭，这确实可能需要五年到十年甚至更长时间。而我们所说的“ChatGPT时刻”，更侧重于具身智能“大脑”的突破，即模型在通用性和泛化能力上实现跃迁，出现类似“智能涌现”的阶段，让技术路径具备高度确定性。

就像ChatGPT在2022年底刚推出时，虽然并不完美，但已经验证了一件事：只要持续扩大数据规模和算力规模，能力就会持续提升，路径是清晰的。

在具身智能领域也是类似。我们期待的不是系统已经完全成熟，而是能够验证这条路径是“可行且可放大的”。

其中一个关键前提，是数据规模的突破。当具备大量真实人类行为数据后，才有可能训练出真正具备通用能力的具身大脑。

Q：在Agent时代的新范式下，具身智能的成本结构会发生哪些变化，主要体现在哪些环节？

王晓刚：过去的研发范式，是针对不同机器人分别采集数据、训练模型，本体之间难以通用。今年为一种机器人积累的数据和模型，到明年更换本体往往需要重新来过，这种方式不可持续。同时，传统的数据采集依赖人为操作机器完成，效率较低，也脱离真实生产生活场景。

而在新的范式下，通过环境式数据采集，数据可以在真实场景中自然产生——例如保洁人员、产线工人在日常工作过程中，就同步完成了数据采集，不需要额外成本。

这将显著降低数据采集成本，同时随着数据规模和通用性的提升，也会进一步降低模型训练成本。

Q：在OpenClaw这类Agent框架上，大晓机器人做了哪些探索？在将其引入物理世界的过程中，安全问题是如何考虑的？

王晓刚：我们的一个重要方向，就是将OpenClaw类工具从数字世界延伸到物理世界。为此，我们构建了一个机管平台，用于统一控制多台机器人。同时，在平台中引入强化学习机制，让机器人在不同场景空间中持续探索并完成任务，通过反馈不断加速学习过程。

在安全方面，机管平台的核心作用是实现“安全隔离”。平台连接的是各种用户需求，如果将这些需求直接作用到机器人上，可能会带来不可预期的风险。通过机管平台这一中间层，可以将用户需求与机器人执行过程进行分离，确保只有经过验证的、安全可靠的任务才会被下发执行。

Q：在Agent能力引入之后，具身智能机器人的商业模式会发生哪些变化？对于收费方式是如何考虑的？

王晓刚：目前，我们的核心商业模式仍然是软硬一体的产品形态，即提供机器人本体加上“大脑”，用于解决具体场景中的问题，例如零售、职场办公等。

在此基础上，我们选择将世界模型开源，是希望扩大技术影响力，让更多开发者参与进来，并在行业中逐步形成标准。只有开源之后，大家才能真实使用、反馈问题，并推动模型不断迭代优化，最终形成统一的技术生态。

Q：在Agent驱动的新阶段，中美在技术路径和产业推进上有哪些差异？中国厂商的机会在哪里？

王晓刚：从技术路线来看，其实变化是非常快的。例如特斯拉自身也在不断调整路径，从以真机数据为主，逐步转向以人为中心的数据采集方式。

从另一个角度看，中美之间的差异更多体现在场景层面。中国具备更丰富的应用场景，同时地方政府对机器人产业的支持力度较大，能够帮助企业快速进入不同场景，积累多样化的数据，这对于模型能力的提升非常关键。相比之下，美国更多依赖少数大型企业，通过自上而下的方式完成数据积累。

Q：从应用落地来看，人形机器人进入家庭还需要经历哪些阶段？哪些类型的产品可能最先实现规模化落地？

王晓刚：人形机器人进入家庭仍需要较长时间。如果是类似玩具的陪伴型机器人，由于对安全性要求较低，可能会更早落地。但一旦涉及实际操作任务，家庭场景的复杂性和安全要求都会显著提高，例如必须确保不会对老人和儿童造成伤害。

此外，相关的技术问题、法律法规以及伦理问题也仍需进一步完善。因此，当前更现实的路径，是先在to B的垂直场景中落地，在验证技术成熟度和安全性之后，再逐步进入家庭场景。（腾讯科技）

扫码下载app 最新资讯实时掌握

商汤

上一篇OpenAI逐步收缩成人内容等高风险消费级功能

下一篇OpenClaw创始人：美国应该向中国学习如何使用人工智能