×
加载中...
专访小米陈龙:安全和用户体验,始终是小米辅助驾驶的核心考量
凤凰网科技 2025-11-25 11:40


摘要:

陈龙透露,用户体验的个性化与安全性始终是小米智驾的核心考量。

凤凰网科技《凤凰车研所》出品

作者|李治钦

编辑|董雨晴

今年6月26日的小米人车家全生态发布会上,小米正式发布了1000万Clips版Xiaomi HAD。在这份辅助驾驶比拼的阶段性答卷上,小米达成了辅助驾驶技术栈和数据量的核心指标要求,也代表着小米追上了当时辅助驾驶的行业第一梯队水平。从那时起,辅助驾驶赛道的技术风向也在悄然发生着变化。

在端到端辅助驾驶规模化交付后,如何打造更强大的辅助驾驶系统,提升辅助驾驶大模型的训练效率,优化极端场景下的表现?强化学习、世界模型逐渐成了业内发力的方向。而另一方面,具备更强认知和逻辑推理能力的VLA视觉语言行为模型,也被认为是通往辅助驾驶下一阶段的钥匙。

面对新技术的涌现,小米的节奏始终围绕 “长期储备” 展开。早在1000万Clips版Xiaomi HAD发布之前,小米就已经组建了超过1800人的辅助驾驶研发团队,其中包括了原一汽南京研究院首席技术官陈光博士、原图森未来首席科学家王乃岩博士等国内顶级科学家。与此同时,小米也放眼海外,从英国招募了年仅35岁的年轻科学家——陈龙博士。这位前英国 Wayve 核心科学家、《麻省理工科技评论》亚太区 “35 岁以下科技创新 35 人”,正式掌舵小米 VLA 技术研发。

图|小米辅助驾驶团队四位核心成员

11月15号,在Xiaomi HAD增强版正式发布前夕,陈龙博士接受了《凤凰车研所》的独家专访,我们从小米最新的辅助驾驶系统Xiaomi HAD增强版出发,聊了小米在世界模型、强化学习上的技术思考、新版本对用户体验的优化细节,也聊了在VLA领域小米的思路和愿景。

陈龙表示,此次发布的新版本,核心突破在于学习范式的升级 —— 从传统端到端模仿学习进化为 “模仿学习 + 强化学习” 模式。区别于模仿学习所采用的「专家教,大模型学」的形式,「强化学习」是让端到端大模型在在世界模型构建的虚拟环境中反复探索 —— 走对了就加分、走错了就扣分,通过这种方式,模型能自主探索并掌握更优驾驶策略,让辅助驾驶行为更贴合真实路况需求。

作为小米智驾下一阶段的核心方向,VLA(视觉 - 语言 - 行为模型)被陈龙定义为通往 L3/L4 级智能驾驶的必要条件。与当前端到端模型的 “黑盒推理” 不同,VLA 通过语言模态赋予系统更强的可解释性,能向用户清晰传递决策逻辑,同时借助互联网通识数据的预训练,大幅提升长尾场景的处理能力,弥补端到端模型在 “未见过的场景” 中的决策短板。值得注意的是,小米认为 VLA 与世界模型并非对立关系,二者可协同训练,共同推动智驾进入 “认知驱动” 的第三阶段。

在行业普遍采用开源基座模型快速推出 VLA 方案的当下,小米选择了 “自研具身基座模型” 的差异化路径。这一模型从 LLM 预训练阶段就进行精心的数据筛选,融入驾驶场景与机器人任务的专项训练,不仅提升了 3D 空间感知与推理能力,更保障了技术的可信度与适配性。针对 VLA 架构可能带来的时延增加、体验回退等问题,小米的应对思路是 “不赶热度、聚焦长期”,通过算力强化、模型量化优化等技术手段降低时延,同时在迭代中确保用户体验的连续性。

陈龙透露,用户体验的个性化与安全性始终是小米智驾的核心考量。在技术优先级上,小米明确 “算法为核心,硬件与算力为补充”的策略,认为当前辅助驾驶的核心难题仍需通过软件突破,硬件与算力则用于弥补软件暂时无法解决的瓶颈。

从海外独角兽公司 Wayve 到小米,35 岁的陈龙带着端到端与 VLA 技术的前沿经验回国,既是出于对本土市场的信心,也源于对小米 “人车家全生态” 愿景的认同。接下来的专访中,他将详细拆解小米智驾的技术路径、差异化优势,以及 VLA 如何真正补上辅助驾驶的短板。

以下是专访问答纪要,经编辑整理:

陈龙博士开场白:

大家好,我是陈龙,现任小米智能驾驶 VLA 技术负责人。我于 2025 年 3月加入小米,此前任职于英国独角兽企业 Wayve,是较早参与端到端与 VLA 辅助驾驶研发的从业者。

小米 HAD 增强版:从 “端到端” 到 “端到端 + 强化学习” 的范式升级

凤凰车研所:此前的Xiaomi HAD上,已经实现了车位到车位的辅助驾驶。业界给第一梯队定义的几个目标:1,000万Clips、端到端架构都已经达成。在这个前提下,这次增强版增强了哪些场景?

陈龙:虽然名为 “增强版”,看似是在 1000 万 clips 端到端技术上的小幅升级,但实际上是一次重大进步—— 我们完成了学习范式的迭代,从传统1000万Clips模仿学习,进化为 “端到端 + 强化学习” 模式。具体到用户体感,横向与纵向控制的 “安心感” 会显著提升,比如对其他车辆的行为预判更精准,面对危险场景的决策更可靠。

本次增强版将随HyperOS 1.11系列推送,除了行泊的提升,新版本在安全辅助方面也有更新,不仅升级了AEB,还新增了AES。小米AES最多支持连续2次转向避让,在一些极端情况下做出更好的处理。

凤凰车研所:您提到本次增强版的核心变化是融入强化学习技术,能否为我们解读强化学习的具体含义?

陈龙: 强化学习是深度学习中比较早出现的概念,早期主要应用在虚拟的游戏环境中,通过设计一些奖励机制,引导模型学习。比如让模型控制游戏角色,吃到金币或者是完成任务,就会获得奖励。这些奖励会激励模型继续做类似的事情,进而得以通关游戏。

监督学习更像 “给模型看游戏通关视频,让它模仿动作”,但模型并不理解 “为何要吃金币”;而强化学习因为设置了很多奖励函数,所以模型可以在自我探索当中,学习到应该吃金币、通关。回到辅助驾驶方面,这就是最近几年刚刚兴起的,基于强化学习训练辅助驾驶模型的原理。

辅助驾驶大概分成三个不同的阶段:

1、早期模块化阶段:基于人工规则定义辅助驾驶逻辑,比如 “不可闯红灯、需避让车辆”,再通过算法优化轨迹,本质是 “显式的人类规则落地”;

2、端到端阶段(去年起普及):以数据驱动为核心,通过海量驾驶视频与轨迹数据,让模型模仿人类驾驶行为,属于监督学习范式;

3、认知阶段:引入强化学习,让模型理解 “行为后果”,而非单纯模仿。

编者注:

深度学习是智驾技术的基础工具,可以比喻为一个容器,后面提到的三种学习方式,通常都是装在“深度学习”这个容器里运行的。

监督学习:教车认东西:给它看几亿张标注好的图片,告诉它哪个是人、哪个是车、哪个是车道线。

模仿学习:模仿学习(Imitation Learning, IL)本质上属于监督学习(Supervised Learning)的一个子集。学习老司机开车,老司机左转,它就记下来“这种路口要左转”;老司机刹车,它就记下来“离前车这么近要刹车”。

强化学习:把学生扔到模拟器里,开得好给糖吃(正向奖励),撞车了扣分(负向惩罚)。让它自己在不断的试错中摸索出分最高的开法。

凤凰车研所:大家都在做强化学习,小米的强化学习有哪些独特的优势?

陈龙:强化学习在端到端辅助驾驶中的应用难度远高于传统模块化场景。传统模块化辅助驾驶只需模拟感知输出(如 BEV 鸟瞰视角场景),场景仿真难度较低;但端到端辅助驾驶以 “视频直接映射轨迹” 为核心。若要应用强化学习,必须先解决 “仿真传感器输入” 的难题 —— 不仅要模拟真实环境的图像效果,还要规避 “sim to real gap(仿真与真实环境差异)”,比如传统渲染模拟器的场景太像 “游戏画面”,训练出的算法落地到真实道路易出错。

小米引入世界模型的概念,就是要解决sim to real gap,我们现在所说的世界模型,大部分是说我们拥有一个模拟器、一个神经网络,可以预测给定驾驶行为后的未来图像。

凤凰车研所:引入强化学习后,Xiaomi HAD 增强版在用户体验上有哪些具体优化?普通用户能感知到哪些变化?

陈龙:技术落地的核心逻辑是 “1000 万 Clips 模仿学习打底,再通过强化学习微调”—— 我们用世界模型搭建虚拟训练环境,搭配人类定义的 “安全奖励函数”,让模型在虚拟场景中优化决策。

具体到实际驾驶,最明显的变化是极端场景的应对能力提升:比如在行人密集路段,模型能更精准地预判行人轨迹,做出更果断的避让动作;面对突发加塞、施工占道等危险场景,决策逻辑更贴合 “防御性驾驶” 需求,整体安全性与可靠性显著增强。

VLA 的核心价值:可解释性 + 长尾场景突破,L3/L4 的必要条件

凤凰车研所:您提到强化学习能优化极端场景处理,那它是否能彻底解决辅助驾驶的长尾问题?理想状态下,强化学习可将极端长尾场景的发生率降低至多少?

陈龙:长尾场景的核心特点是 “不可穷尽性”—— 若能提前罗列所有长尾场景,它就不再属于 “长尾范畴”,因此很难用具体数值量化优化效果。

如前所述,智能驾驶已进入 “认知阶段”,强化学习是重要支撑 —— 它让模型理解 “危险行为的后果”(比如闯红灯会获负向激励),但认知能力的另一关键来源是 VLA(视觉 - 语言 - 行为模型)。VLA 能为模型注入两大核心能力:一是 VLM 预训练带来的 “世界通识”,二是逻辑推理能力。这两种能力在处理 “未见过的长尾场景” 时优势显著 —— 即便训练数据中未覆盖某类场景,模型也能通过互联网通识与推理逻辑,判断出合理的驾驶决策。

可能在未来,“世界模型 + 强化学习 + VLA” 的组合,将推动辅助驾驶全面进入认知驱动的第三阶段。

凤凰车研所:今年行业对 “VLA 与世界模型谁是核心方向” 存在较多讨论,在小米的技术逻辑中,二者分别扮演什么角色?是否存在技术冲突?

陈龙:小米内部一致认为二者不存在冲突,反而可协同互补 —— 首先要明确 “世界模型的核心用途”:行业对 “世界模型” 的定义较模糊,各家表述不一,小米将其分为两类应用场景:

1、作为 “模拟器”:输入驾驶行为后,预测未来图像画面,为强化学习提供虚拟训练环境;

2、作为 “预测模块”:将 “预测未来图像 / 潜在空间” 的能力融入端到端模型,提升决策前瞻性。而 VLA 本质上仍是端到端模型,只是增加了 “语言模态”—— 它既可以用世界模型作为模拟器训练,也能融入 “未来预测” 能力,二者属于 “技术工具与应用场景” 的关系,而非对立关系。 

凤凰车研所:当前行业多通过虚拟预演优化世界模型,小米如何构建适配中国复杂路况的世界模型?相比其他厂商,小米的世界模型有哪些优势?

陈龙:我们的核心工作是 “Genesis方案”:通过 “道路环境数据 + 语言描述” 双输入,生成适配中国场景的虚拟环境。

比如各个城市有不同的交通牌,有不同的路口规则,红绿灯的样式也不一样。我们通过语言就可以很好的去描述,然后就可以生成不同的场景。通过不同的场景,就可以使用强化学习算法来训练我们的模型。

所以小米的优势就是有强大的世界模型,包括我们有很多在路上跑的测试车,会为我们提供很多不同省份的数据,这样我们就可以训练出更好更强大的世界模型,更适应中国的驾驶环境。

凤凰车研所:所以它是一个螺旋上升的,一个正向的过程是吗?

陈龙:是的

凤凰车研所:从用户体验角度,小米 VLA 架构相比当前系统,会带来哪些明显变化?

陈龙:现阶段暂不便透露小米 VLA 的具体细节,但可分享行业对 VLA 价值的共识,主要体现在两方面:

第一是 “强可解释性”:传统端到端模型是 “黑盒逻辑”—— 输入视频后直接输出轨迹,无法让用户理解 “算法为何做此决策”;而 VLA 通过语言模态实现 “显式推理”,能将决策逻辑以文字形式告知用户(如 “前方车辆可能变道,将减速避让”),大幅提升用户对系统的信任感。

第二是 “长尾场景处理能力”:VLA 通过互联网语言数据预训练,具备世界通识与推理能力,即便遇到训练数据中未覆盖的场景(如特殊交通标识、地方通行规则),也能通过逻辑推理做出正确决策,这是传统端到端模型难以实现的。

凤凰车研所:若用 “宝宝学说话” 类比,是否可理解为:端到端像宝宝模仿说话却不知含义,VLA 则是让宝宝通过读书认字,掌握沟通与推理能力?

陈龙:是的,这个类比很形象,也能解释 “为何驾驶需要认知能力”—— 就像各国要求 16-18 岁才能考驾照,核心是因为驾驶不仅需要 “动作模仿”,更需要 “世界认知与推理能力”。

端到端模型如同幼儿:通过观看大量驾驶视频学会 “如何操作车辆”,但不理解物理规律(如 “超速会增加刹车距离”),也没有价值观(如 “需优先避让行人”);而 VLA 赋予模型的,正是 “16-18 岁青少年的认知水平”—— 它懂物理规则、有世界通识、能逻辑推理,在极端场景中能基于认知做出正确决策,而非单纯模仿。

凤凰车研所:您提到 VLA 已成为业内主流技术方向,那么它是否可被视为通往 L3 乃至 L4 级自动驾驶的必要条件?

陈龙:我认为是的,核心原因在于 L3/L4 对 “场景泛化与极端场景处理能力” 的高要求。

L3 级辅助驾驶的关键是 “责任转移”—— 在定义的 ODD(运行设计域)内,车企需承担驾驶责任,用户可 “脱手脱眼”;L4 则要求更高的场景覆盖度。这两类都需要系统具备极强的 “长尾场景应对能力”,而 VLA 正是解决这一问题的核心技术。

比如 L3 在遇到未覆盖的场景时,会将控制权交还给用户;但通过 VLA 的通识与推理能力,部分极端场景可被系统自主处理,进而扩大 ODD 范围,为 L3 向 L4 升级奠定基础。因此,L3/L4 的终局必然需要 VLA 加持。

小米自研基座模型:训练数据精心筛选,比开源微调更可信

凤凰车研所:VLA 的核心优势是感知与推理能力,小米的 VLA 技术在这两方面会有哪些突破?

陈龙:小米选择自研具身基座模型,从LLM(大语言模型)阶段的预训练,就联合集团团队推进。所以我们从LLM阶段数据筛选方面就有很大的优势,这些优势也贯穿做具身基座的微调、持续的预训练。然后我们把空间感知跟空间推理的能力进一步加强,再用强大的具身基座模型训练VLA模型,就能有很多显著的优势。

一是 “数据可信度”:预训练阶段的所有数据均经过精心筛选,如同 “招聘司机时全面考察过往履历”,能确保模型的行为逻辑符合驾驶安全要求;

二是 “场景适配性”:我们在基座模型中融入了机器人任务、驾驶场景的专项训练,强化 3D 空间感知与推理能力,让模型更适配 “物理世界驾驶场景”,而非通用领域。这两点能让小米 VLA 在感知精度与推理可靠性上实现突破。

凤凰车研所:相比通用大模型,小米自研的基座模型是否更聚焦驾驶领域?此外您提到 “具身智能”,当前机器人行业对此关注度很高,小米的基座模型能否应用于机器人领域?有哪些优势?

陈龙:我们的基座模型是 “通用能力为基础,驾驶场景为重点”—— 在保留大模型通用认知能力的前提下,强化空间感知与推理训练,就像 “让一个人先具备基础认知,再专项学习驾驶技能”,这样既能适配驾驶任务,也能兼容其他场景。

至于机器人领域的应用,小米的核心优势是 “人车家全生态的数据协同”:我们有车辆、机器人、家居等多场景的设备与数据,可训练出 “通用具身大脑”—— 这个大脑既能理解驾驶场景的需求,也能适配机器人的室内交互、家居设备的联动控制,实现 “跨场景能力复用”。

未来,这个通用具身大脑可同时服务于各种领域,这是小米生态独有的优势。

凤凰车研所:回到VLA这个话题上,VLA 需处理 “视觉 - 语言 - 行为” 全链路信息,相比传统端到端模型,链路更长、信息更复杂,小米如何降低时延、提升 VLA 的实际可用性?

陈龙:VLA 引入语言模态后,确实会增加算力需求与推理时延 —— 传统端到端模型是 “视频直接映射轨迹”,一步完成;而 VLA 需先通过语言模态描述视觉信息、进行逻辑推理(如 “预判前方车辆可能并线”),再输出驾驶行为,信息处理量显著增加。

VLA,L(Language,语言)的作用是对vision的增强,并不是“转译”带来的“瓶颈”,真正训练过Transformer都懂L的推理不会带来任何的信息损失。因为vision(视觉)已经是一个输入,我可以通过L这个模态,首先对vision进行进一步的增强的描述,之后可以再进行进一步的推理。例如,我可以通过语言更高效地预测周围的车会往哪里开等等,这些都是利用语言模态在视觉的基础上进行预测的,是相加的关系而不是简单的“转译”。

然后我们可以进行潜在的推理,比如前方车辆有可能在我们行驶的路线上cut in(加塞并线)。我可以提前推理出这个行为,并进行潜在的防御性驾驶,比如说稍微开慢一点。通过不停的推理,结合视觉的输入和语言模态推理,最终输出行为。

通过这一系列的推理,信息量在持续增加,驾驶的行为也会更加的自信、果断,降低不确定性。所以就像刚才您说的,可能它的延时会更长,对算力的要求会更高。

当然我们是可以有很多不同的方法来降低延时,比如把算力再加强,也可以在模型上做一些优化,让它速度更快。在推理的TOKEN上做特别的处理,移除掉口语化表述,让它输出更少量、更加精确的TOKEN,这些都可以帮助到我们增加推理速度,降低延时。

凤凰车研所:如此看来,小米大力投入 VLA 与自研基座模型,可理解为在做 “难但正确的事”?

陈龙:对,VLA利用到了我们大模型的能力。小米是坚信大模型的路线的,我感觉小米的终局目标是一个物理世界AI公司。因为小米拥有全球最多的智能设备。如果所有的智能设备都有大模型的加持,对整体的用户体验提升是非常大的。

而 VLA 正是大模型进入物理世界的关键尝试:它让大模型直接通过传感器输入(如摄像头画面)做出驾驶决策,本质是 “将数字世界的 AI 能力,落地到物理世界的驾驶场景”。这种尝试不仅能提升辅助驾驶的智能化水平,更能为未来具身智能的跨场景应用积累经验,是 “难但正确” 的长期布局。

凤凰车研所:您曾在社交平台提到 “端到端只能解决 90% 的驾驶问题,剩余 10% 需 VLA 补充”,能否举例说明这 10% 的具体场景?VLA 在这些场景中如何发挥优势?

陈龙:其实端到端能解决90%场景,端到端模型的核心局限是 “只懂模仿,不懂理解”—— 它通过海量数据学习驾驶行为,但不理解物理规则、交通规则的本质,因此在 “需推理的场景” 中易出现偏差。

比如特斯拉的端到端技术已很成熟,能实现不少惊艳的功能,但在国内测试时,仍会出现 “不识别特殊交通标识”“违反地方通行规则” 的情况 —— 这就是端到端无法覆盖的 10%。

VLA 的优势在于 “理解与推理”:面对未见过的交通标识,它可通过语言模态的通识(如 “圆形红底标识为禁止通行”)判断规则;遇到地方特殊规则(如部分城市 “右转必停”),也能通过语言推理理解要求,进而做出合规决策。

简单来说,端到端解决 “常规场景的动作模仿”,VLA 解决 “长尾场景的认知推理”,二者形成互补。

技术优先级排序:算法是第一,硬件 / 算力只是 “弥补软件短板”

凤凰车研所:在您看来,实现高阶辅助驾驶,“硬件”“算力”“算法” 的优先级应如何排序?

陈龙:当前辅助驾驶仍属于 “未完全解决的研究性问题”,核心矛盾在算法与模型层面,而非硬件或算力。

特斯拉前 AI 负责人 Andrej Karpathy 曾说 “特斯拉的问题是软件问题”,这一观点我非常认同 —— 软件(算法)是决定辅助驾驶水平的核心,硬件与算力更多是 “弥补软件短板” 的手段。

比如当软件暂时无法通过算法突破感知精度时,我们可增加激光雷达等硬件,直接获取物体距离信息,提升决策可靠性;当软件需要处理更复杂的 VLA 推理时,我们可通过算力升级保障响应速度。因此优先级很明确:算法第一,硬件与算力作为补充,服务于软件落地。

选择小米的初心:认同 “人车家全生态”,VLA 是 “难但正确的事”

凤凰车研所:我最后一个问题是关于您自己的。您年仅 35 岁就已在海外顶尖企业深耕端到端与 VLA 技术,还入选《麻省理工科技评论》亚太区 “35 岁以下科技创新 35 人”。从您的视角看,中国辅助驾驶企业相比海外企业有哪些优势?此外,是什么契机让您选择回国,又为何最终加入小米?

陈龙:首先,中国辅助驾驶企业的优势集中在 “用户体验与本土化适配”:我在海外生活工作十余年,对比国内外驾驶场景后发现,国内更需要 “防御性驾驶”—— 比如突发加塞、电瓶车横穿等不可预测场景更多,这对辅助驾驶的灵活性与安全性要求更高。国内车企在这类场景的优化上投入更多,用户安心感更强。

同时,国内对 VLA 技术的接受度与落地速度也领先海外,这与国内大模型技术的快速发展密不可分。

至于回国与加入小米的契机:回国对我而言是 “回归故土”,既能陪伴家人,也能参与国内科技行业的发展浪潮 —— 近年国内在大模型、机器人、电动汽车领域的进步有目共睹,比如 DeepSeek 等企业的大模型技术已获得海外认可,这让我看到了回国发展的价值。

选择小米则是因为 “价值观与愿景契合”:我感觉小米是一个非常符合我价值观的公司,我非常认可小米的理念,做感动人心价格厚道的好产品,让全球每个人都能感受到科技带来的美好生活。

我从大学时就是小米 1 用户,当时花两个月生活费买的手机,体验远超预期;后来小米向小米 1 用户退还 1999 元,更让我感受到品牌对用户的诚意。

2024 年小米与我接触时,雷总曾亲自与我交流一小时,他描述的 “人车家全生态”“AI 赋能物理世界” 愿景,与我对 VLA 技术的期待高度契合 —— 我相信小米能为 VLA 提供最好的落地土壤,因此最终选择加入。

凤凰车研所:所以您是相信,坚持做正确的事,最终会有最好的结果?

陈龙:是的。

凤凰车研所:从小米 1 用户到小米 VLA 技术负责人,这段十几年的缘分很有意思。感谢您的分享,本次专访到此结束。(转载自凤凰网科技)

扫码下载app 最新资讯实时掌握