迟到一年,花了 20 亿改造,理想在7月29日交出第二款纯电产品 i8。
和这款六座纯电 SUV 同期交付的,是理想的下一代辅助驾驶技术方案 VLA(Vision-Language-Action,视觉语言动作模型)司机。
根据理想汽车自动驾驶研发高级副总裁郎咸朋,理想将在 8 月内向用户推送该方案。搭载英伟达双 OrinX 和 Thor U 芯片的 AD Max 车型都将升级为这一系统。
VLA 模型被认为具备对空间和语言的理解能力,能够对场景进行有效的推理,并生成行驶轨迹。除了理想,小鹏汽车、辅助驾驶方案供应商元戎启行也计划在今年推送该系统。小鹏的交付时间是今年三季度。
郎咸朋表示,理想会第一个推送 VLA 模型,“一定会比友商早”。
为了研发 VLA 模型,理想在云端搭建了 13 EFLOPS 算力,其中 3 EFLOPS 用于推理,10 EFLOPS 用于训练。
在此基础上,理想在云端训练了 32B 参数量的大模型,经过强化学习、模型蒸馏等技术压缩为 3.2B 的 MoE 混合专家模型并部署到车端。理想 AD Max 车型搭载 Thor U 芯片,行业普遍认为算力为 700 Tops。
这与小鹏汽车的模型训练方法类似,但小鹏云端和车端模型的参数量更大。今年 4 月,小鹏汽车宣布其在云端训练了 72B 的模型, Ultra 版本的车端算力高达 2000 Tops ,其中,1500 Tops 用于跑 VLA 模型。
对于和对手在算力上的差距,郎咸朋回应:芯片的算力和量化精度相关,使用常见的 FP16 或 FP32 精度进行推理,有效算力就会低一些。而理想的 VLA 模型采用 INT8 与 FP8 的混合精度推理,有效算力能达到 1000 Tops 。
虽然 VLA 被视作辅助驾驶的下一代技术,但目前仍处于起步阶段。郎咸朋坦诚,理想的 VLA 模型能力目前仅相当于上一代端到端模型的上限,“还有很长一段路要走。”
正式推送给用户之前,他认为理想 VLA 模型的能力还会大幅度提升。
和前一代端到端方案相比,他认为 VLA 模型的迭代速度会更快。理想将端到端模型的训练数据增长到 1000 万 Clips 之后,MPI (Miles per Intervention,平均接管里程)增长显著变慢,而 VLA 模型的 Scaling Law(规模法则)他认为才刚刚开始。
虽然 AI 行业普遍认为多模态模型距离抵达 GPT 时刻还很远,无论是对物理世界的理解还是数据的训练,都还没有明确的解决方案。但理想相信自动驾驶行业由于范式相对统一,迭代速度会非常快。
“端到端从 10 MPI 到现在 100 MPI 只用了一年左右。我相信 VLA 的迭代速度也会非常快,可能明年已经迭代到 1000 MPI 了。”郎咸朋说。
到那个时候,他认为自动驾驶 VLA 模型的 GPT 时刻可能就会来了。
以下是理想汽车自动驾驶研发高级副总裁郎咸朋、理想汽车自动驾驶高级算法专家詹锟、理想汽车自动驾驶高级算法专家湛逸飞接受《云见 Insight》等媒体采访的问答实录(经编辑):
问:VLA 司机具备推理能力,但车机上显示的推理过程需要几秒钟的时间,在突发场景下是怎么进行快思考的? 郎咸朋:您认为思考过程很慢是显示的原因,本身推理速度是很快的,只是为了让大家能够看得更清楚,我们摘取了一些重要的思考过程显示出来。实际上 VLA 的推理帧率在 10Hz 左右,比之前的 VLM 提升了三倍多,之前 VLM 是 3Hz 左右。 问:VLA 是用 MindGPT 作为基座模型进行训练,比之前的模型好用吗? 詹锟:我们自研的基座模型对部署 VLA 有很大作用,我们 VLA 是 4B 模型,比以前更大了,但推理速度更快了。核心原因是我们自研的基座架构,并不是业界任何一个开源模型都能达到这个效率。之前在 AI Talk 上提到过我们是 MoE 的 0.4×8 的架构,目前没有任何一个架构是这样的,这是我们与基座团队共同研发,专门对嵌入式芯片做了定制的 MoE 混合专家架构,在这个架构上我们才能达到这样的效果。 VLA 的推理帧率在 10Hz 左右,每一帧都会经过语言模型,这其中会有比较快的思考,也会有比较长的思考。我们做了很多的优化,把思考过程尽可能在车端推理出来。 问:如何判断自动驾驶落地的时间表?如何进行商业变现? 郎咸朋:从技术层面看,我们认为 VLA 模型可以走向更高级别的自动驾驶,但它现在处于起步阶段。在这个技术周期里,起步阶段 VLA 模型约等于端到端的上限,它还有很长一段路要走。 但我认为这个过程不会特别慢,因为端到端从 10 MPI 到现在 100 MPI 只用了一年左右的时间。我相信 VLA 的迭代速度也会非常快,可能明年已经迭代到 1000 MPI 了。但前提是要有完备的基础能力,如算法、算力和数据等,并且要有工程能力的支撑。尤其 VLA 的训练和端到端是不一样的,它需要更多的成熟的仿真环境来进行强化学习的训练,和之前单纯依靠实车数据模仿学习训练是完全不同的。 商业变现的影响因素非常多,最核心的是国家的法律政策。理想汽车也在积极参与国家相关政策法规的讨论小组,从技术上看 L4 级别的自动驾驶落地非常快,但从商业角度上看,还有很多问题需要考虑,比如保险,事故之后的赔偿等。 问:VLA 模型的难度在哪里?对企业的要求是什么?如果一个企业想要落地 VLA 模型会面临哪些挑战? 郎咸朋:曾经也有很多人问过,如果车企想做 VLA 模型是不是可以跳过前面的规则算法,跳过端到端阶段,我认为是不行的。虽然 VLA 的数据、算法等可能跟之前不太一样,但这仍然要建立在之前的基础上,如果没有完整的通过实车采集的数据闭环,是没有数据去训练世界模型的。理想汽车之所以能够落地 VLA 模型,是因为我们有 12 亿数据,只有在充分了解这些数据的基础上,才能更好地生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练算力和推理算力的支撑需要大量资金和技术能力,如果没有之前的积累是不能完成的。 问:目前有一些友商的车载算力已经到 2000 TOPS 了,这其中有一部分算力是提供给座舱的,未来理想汽车在车载算力上的规划是怎样的? 郎咸朋:实际上算力和量化精度是相关的,也就是如何使用芯片。如果使用精度比较高的表达方式,等效算力或有效算力会低一些,但如果使用更好的量化精度,算力就会高。因为我们不清楚其它企业的量化精度,所以很难评判。我们在车载算力上有更加长期的规划,但现在不方便透露。 算力增长过程与技术方案相关。在规则算法时代,训练卡只是用于训练 BEV 模型和感知模型,相对数量较少,但在端到端时代,模型训练需要大量算力及训练卡,我们的训练卡从不到 1 EFLOPS 增长到去年的 10 EFLOPS,增长了 10 倍左右。我们认为训练算力是一方面,同时要增加推理算力。 问:智能驾驶存在一个 “不可能三角”,效率、舒适和安全三个目标之间是互相制约的,目前阶段难以同时实现。请理想汽车的 VLA 目前最先优化的指标是哪一个?刚刚提及 MPI,是否可以理解为,目前理想汽车最终的指标是提升安全性以有效减少接管? 郎咸朋:MPI 是我们衡量的指标之一,还有一个指标是 MPA,也就是指发生事故的里程,现在是 300 万公里左右。理想车主的人驾数据是 60 万公里左右出一次事故,而在使用辅助驾驶功能的情况下是 350 到 400 万公里发生一次事故。这个里程数据我们还会持续提升,我们的目标是将 MPA 能提升到人类驾驶的 10 倍,也就是比人驾安全 10 倍,我们希望在辅助驾驶功能下能够做到 600 万公里才出一次事故,但这必须等到 VLA 模型提升之后才能做到。 针对 MPI,我们也做过分析,可能一些安全风险问题会导致接管,但有时候舒适度不好也会导致接管,比如急刹、重刹等,因为并不一定每次都会遇到安全风险,但是如果驾驶舒适度不好,用户依然不想用辅助驾驶功能。因为 MPA 可以衡量安全性,在 MPI 方面,除了安全性之外,我们重点提升了行车舒适度,如果体验了理想 i8 的辅助驾驶功能,会体验到舒适度比之前的版本有很大提升。 效率是排在安全和舒适之后的,比如走错路,虽然效率有所损失,但我们不会通过一些危险的动作立刻纠正,还是要在安全和舒适的基础上去追求效率。 问:刚提到今年实车测试是 2 万公里,大幅减少实车测试的依据是什么? 郎咸朋:我们认为实车测试有很多问题,成本是其中一方面,最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时,实车测试的效率太低了,在实车测试过程中要开过去之后再复测回来,我们现在的仿真效果完全可以媲美实车测试,现在的超级版本和理想 i8 的 VLA 版本中 90% 以上的测试都是仿真测试。 从去年端到端版本我们就已经开始进行仿真测试的验证,目前我们认为它的可靠性和有效性都很高,所以我们以此替代了实车测试。但仍有一些测试是无法替代的,比如硬件耐久测试,但和性能相关的测试我们基本上会使用仿真测试替代,效果也非常好。 问:通常的做法是保持实车测试规模,大幅增加仿真测试数量,从理想汽车的实际反馈看,仿真测试的效果比实车测试好很多吗? 郎咸朋:是的。仿真测试效果好,成本低,为什么不用仿真测试?我们保留实车测试是为了一些必要内容,任何技术的提升一定伴随着研发流程的变革,工业时代来临后,刀耕火种的流程被机械化替代;信息时代后,网络替代了大量工作。在自动驾驶时代也是一样,端到端时代来临后,我们进入了使用 AI 技术做自动驾驶的方式,从雇佣大量工程师、算法测试人员,到数据驱动,通过数据流程、数据平台和算法迭代提升自动驾驶能力。而进入 VLA 大模型时代,测试效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影响快速迭代的因素迭代掉,如果这其中仍有大量的实车和人工介入,速度是会降低的。并不是我们一定要替代实车测试,而是这项技术,这个方案本身就要求要使用仿真测试,如果不这样做,并不是在做强化学习,并不是在做 VLA 模型。 问:刚刚分享了端到端的瓶颈和一些无法解决的问题,VLA 是当时唯一考虑的路线吗?还是有其它的选择? 郎咸朋:我们并没有很纠结方案。因为我们一直保持着对前沿算法的预言和探索,做端到端的时候我们也在考虑下一代人工智能技术,当时业内最有前途的就是 VLA 技术方案,但并不是只是用于自动驾驶,它是具身智能领域的技术。我们认为它也是未来机器人领域的通用技术框架,其实自动驾驶也是一种机器人,是自主行驶的机器人,如果未来我们希望做其它机器人,也都可以基于类似的 VLA 框架,所以我们经过了长时间的调研和探索,制定了 VLA 的技术方向。 问:刚郎博提到如果量化精度高的话,可以在 Thor 芯片上实现翻倍的算力,为什么理想汽车能够最大限度压榨芯片的能力?基于这个能力,理想汽车是否还会自研智驾芯片? 詹锟:我们从去年开始用 Orin 芯片做大模型部署,当时英伟达觉得这是不可能的,但我们认为这必须要做,和英伟达做了非常详细的剖析和拆解,我们的工程团队、部署团队做了非常多的工作,包括我们魔改 CUDA 的底层,重写 PTX 底层指令,才能实现现在的效果。 理想汽车自动驾驶团队的工程部署能力是一以贯之的,从早期在地平线 J3 部署高速 NOA,到在 Orin 芯片上部署大模型,再到现在在 Thor 芯片上部署 VLA 高频快速的大模型。这些都是有工程积累和工程实践的,很多技巧和分析方法,以及基础设施的工具链都继承下来了。 这其中很关键的一点,是我们打磨细节的能力,芯片能否被压榨最主要的是做底层分析,解决瓶颈热点。刚刚郎博分享了很多我们解决的问题,大家会发现 VLA 从最初推理一帧需要 500-600 毫秒到最后实现 10Hz,提升了近 10 倍的效率,这其中有非常多的细节都是我们遇到问题后拆解当前芯片适配的算法,调整算子,让算子和芯片的能力更匹配。大家常用的推理模型是 FP16,我们把它降到 FP8,性能做了提升,同时 FP4 也是英伟达在最新的 Blackwell 架构中非常推崇的,我们会进一步把芯片算力压榨出来。 郎咸朋:自研芯片的核心原因是作为一个专用芯片能够针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用 Thor 芯片是因为英伟达对一些新的算子支持是比较好的,算力也比较充足,在整体 VLA 迭代过程中依然有变化的可能性,所以我们依然在用 Thor 芯片。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片。 问:VLA 其实没有颠覆端到端 +VLM,所以是否可以理解成 VLA 是偏向于工程能力的创新? 詹锟:VLA 不只是工程方面的创新,大家如果关注具身智能,会发现这波浪潮伴随着大模型对物理世界的应用,本质就是提出了一个 VLA 算法,我们的 VLA 模型就是想把具身智能的思想和路径引用在自动驾驶领域。我们是最早提出,也是最早开始实践的。VLA 也是一种端到端,因为端到端的本质是场景输入,轨迹输出,VLA 也是如此,但算法的创新是多了思考。端到端可以理解为 VA,没有 Language,Language 对应的是思考和理解,我们在 VLA 中加入了这一部分,把机器人的范式统一,让自动驾驶也能成为机器人的一类,这是算法创新,不只是工程创新。 但对于自动驾驶而言,很大的挑战是必须要有工程创新。因为 VLA 是一个大模型,大模型部署在边缘端算力上是非常具有挑战的。很多团队并不是认为 VLA 不好,而是因为 VLA 部署有困难,把它真正落地是非常具有挑战性的事情,尤其是在边缘芯片算力不够的情况下,是不可能完成的。所以我们是在大算力芯片上部署。这不仅仅是工程创新,但的确需要工程部署大范围优化才能实现。 问:VLA 大模型在车端部署的时候是否会有一些轻量化的版本,比如模型裁剪或蒸馏版本?如何在推理效率和模型之间做好平衡? 詹锟:在部署时的效率和蒸馏上我们做了非常多平衡。我们的基座模型是自研的 8x0.4B 的 MoE 模型,这是业界没有的,我们在深入分析英伟达芯片后,发现这个架构非常适合它,推理速度快的同时模型容量大,能够同时容纳不同场景、不同能力的大模型,这是我们在架构上的选择。 另外,我们是大模型蒸馏出来的,我们最早训练了一个 32B 的云端大模型,它容纳了海量的知识和驾驶能力,我们把它做出的思考和推理流程蒸馏到 3.2B 的 MoE 模型上,配合 Vision 和 Action,使用了 Diffusion。我们用这样的方法做了非常多的优化。从细节上来看,我们也针对 Diffusion 做了工程优化,并不是直接使用标准 Diffusion,而是进行推理的压缩,可以理解为一种蒸馏。以前 Diffusion 可能要推理 10 个步骤,我们使用 flow matching 流匹配只需要推理 2 步就可以了,这方面的压缩也是导致我们能够部署 VLA 的本质原因。 问:我们在测试时看到可以对 VLA 说前进 10 米。大模型在训练数据中没有学习过这么具体的概念,理想汽车是如何了解背后机制的?人类是否能信任大模型做出的判断? 詹锟:首先,我们不会单纯地让模型学习向前走 10m、12m 这样生硬的数据,但是在海量的通识数据中,有很多对物理空间的理解。比如前方白车距离多少米,前方路沿和我有多少距离,而且现在大模型也已经加入很多物理空间的知识,包括现在的 ChatGPT、千问都具备这样的能力,把这些能力在大模型里学习之后,我们只需要在 action 中把它体现出来。刚刚分享了五步训练法,第一步就是加入通识能力和物理世界的知识,在第二步时进行一些微调,将这样的能力和 action 结合,就能够实现,这是端到端的学习思路就能做到的。其实有一些背后的机制和现在的大模型非常一致。当我们把海量数据喂给它,这些数据具备组合泛化能力,并不是教什么学什么,当量级达到一定规模时,会涌现出一些能力,包括行为,并不是说必须 11m、12m、13m,分别教才行。它懂了数字,懂了米数,当你在给它一个新的东西,它就存在一种组合泛化的机制。 这是大模型理论研究非常多的,但目前这样的机制可以在各个领域进行泛化应用。所以我们很多能力和知识就是各个学科交叉的融合,我们也非常关注现在大模型的进展,随时可以向自动驾驶上迁移。 问:大语言模型可能缺乏长期记忆能力和长期规划,理想汽车做了怎样的改进? 詹锟:大家可以发现,近一年,大模型和 Agent 的发展是非常快的。大模型用到了很多 tools 能力,包括 RAG 能力,刚刚看到的记忆就是 RAG 能力。当我们发出指令之后可以外挂在 RAG 中,当下次到这里的时候可以很容易调度它,它能够记得之前到这个地方的时候发出过这样的指令,就能够加到 prompt 中。我们会进行 prompt 的微调,本质是把这些知识放入 VLA 输入中,大模型会具备这样的能力。 当我们把大模型系统看做一个 Agent,本质是它是一个以大模型为中心构建的系统,这其中有 tools,RAG 外挂系统来增强它的记忆和规划能力,让他形成一个真正的完整的智能体。 问:AI 评测与运营在 VLA 研发过程中负责的内容和作用是什么? 湛逸飞:第一部分是世界模型仿真评测,基于世界模型技术,无论在端到端还是在 VLA 过程中,都发挥了巨大的价值。我们每天的测试里程最大的峰值可达到 30 万公里,在今年上半年,共累计进行了超过 4000 万公里的测试。 第二部分是 AD 运营,是基于我们的用户使用数据,作为巨大的保障,让我们可以研究用户对辅助驾驶功能的使用,在什么场景下会接管,在什么场景下会启用。刚提到了一些强化学习技术,其实用户天然为我们提供了非常多的可以用于强化学习的场景。用户使用辅助驾驶功能时的每一次接管都是一次对当前系统能力的反馈,我们可以基于这些反馈去进行强化学习,基于强化学习,理论上可以实现对接管问题全自动的优化和处理。在此之外,我们对每个用户的使用习惯都会进行分析,比如有些用户倾向于更激进的效率变道,有些用户更喜欢稳健的驾驶风格,我们会在这些用户数据的基础上强化 VLA 大模型。 问:物理世界中实车测试是无法 100% 复现场景的,在仿真测试过程中是怎样做到 100% 复原的? 湛逸飞:我们 2024 年进行了 150 多万公里的实车测试。实际上我们在 2024 年就已经具备了世界模型仿真能力,我们用这 150 多万公里的实车测试来验证仿真环境的可靠性。事实上,最初世界模型仿真复现率或真实性存在问题,但我们通过与实车测试数据对比,在过去一年里针对仿真测试中的漏洞或缺陷进行了大量工程和算法优化,让仿真一致性达到了非常高的程度。虽然并没有达到 100%,但准确率也可以在 99.9% 以上。举一个简单的例子,在仿真环境中最开始红绿灯的变化在 200 米外是看不清楚的,于是我们针对红绿灯的视野模型仿真进行了大量的优化,包括对 30°相机分辨率的提升。我们用过去一年的时间将仿真系统的可靠性提升到了很好的程度,才会放心使用这套系统。 问:近期理想汽车发布了 OTA 7.5 版本,这次的重磅升级是超级对齐监督模型的发布,这对 VLA 实现人类老司机体验的作用和意义是什么? 郎咸朋:OTA 7.5 版本的超级对齐做了两件事,第一,对数据配比进行调整,使得模型训练的数据质量和数据覆盖提升;第二,增加了后处理能力,比如法律法规类的规则,强制让模型输出符合法规或合规的规定,让它更加符合人类驾驶习惯要求。 VLA 很重要的意义是为我们提供了很多评测场景,刚刚提到我们在过去一年的迭代过程中积累了大量用于仿真评测的场景,现在的 VLA 模型仿真得分已经超越 OTA 7.5 版本的得分,我们把 OTA 7.5 版本超级对齐的一些场景用 VLA 的模型再去跑一遍,看它在这个场景里的通过率和得分率。超级对齐里也用了很多仿真测试,在超级对齐之前我们还没有特别大量地使用仿真环境进行测试,在超级对齐中我们可以达到单天峰值 30 万公里的仿真里程。 所以,它对 VLA 的意义就是它为 VLA 积攒了很多评测场景和数据,假设其他团队在做 VLA 模型,单纯评测就是一项挑战,需要积累很多的场景。我们在 VLA 模型中能够快速迭代的原因是 VLA 评测就像之前的实车评测一样,在实车评测时大家都有自己的方式和场景,我们的 VLA 仿真评测已经在超级对齐里做好了基础,现在已经有超过 40 多万个场景评测了,我们还会持续补充,超级对齐对 VLA 的意义最重要的就是在评测方面。 问:从行业角度来看,目前智驾体验比较趋同,未来理想汽车是否会将自己的智驾能力向行业输出或开源或向其他车企售卖? 郎咸朋:我认为是可以的,我们希望为行业做贡献。但前提是,第一,我们是不是能够很好地验证这套系统,因为整个 VLA 的发展还是在初期阶段,需要继续提升;第二,是否其他人有能力和我们一起去做这件事,因为他也需要有自己的评测方式、仿真环境,以及强化学习训练能力。 从公司或我个人的态度上,是希望能够促进行业发展,但从目前 VLA 技术发展阶段来看,依然是比较初级的,它的发展速度可能会比较快,像端到端一样,用一年的时间将效果提升 10 倍。行业发展速度会非常快,我相信明年沟通的时候可能会讨论一下开源的问题。 问:理想在 Thor 的 FP8 格式下实现 1000 TOPS 算力,而行业普遍采用 FP16 处理算子。如何做到将精度从 FP16 降至 FP8 时保持模型精度(不掉点)?向 FP4 演进时需突破哪些关键技术?Blackwell 已支持 FP4 原生硬件,但 INT4 如何处理?Orin-X 等平台缺乏 FP4 原生支持,如何平衡硬件兼容性与计算效率?FP4 实现 2000 TOPS 等效算力后,能否支撑类人感知的帧率(如 3FPS)? 关键瓶颈会出现在哪里? 詹锟:我们把数值精度,首先从 FP16 或者 FP32、FP8 和 INT8 这样去缩减的。 这是业界比较共识的一个问题,在大模型领域,大家对数值精度的要求会降低,这也是为什么到 LLM 领域,大家看到 DeepSeek 开始推它的 FP8,为什么以前不行?因为模型参数规模过大,对它的容错变低了,它通过更多的层,更多的数据容量,把之前的异常值降的越来越少,这是大模型一个特性,也是为什么到 VLM、VLA 领域以后,大家会逐渐往低精度,更精细的计算密集型的算子上去靠近,这是很大一个变化。如果我们还用原来的方法,那是不太行的,它会要很高的 FP32、FP16 这样的数值精度,VLM 才能做这样的事情。 另一个,量化训练。传统的训练一般都会拿 FP32 做训练,所以拿出来的参数就是 FP32 的数值精度。我们有一个训练过程叫 QAT,就是在训练过程中,把参数变成 INT8 或 FP8,这样的过程中,我们在模型只能用数据精度去做模型训练迭代,这样我们拿出来的模型就能适配模型的推理精度。 以往企业是很难做好,是因为这个训练过程中会非常不稳定,这里面有大量的训练框架优化,训练策略的优化。可能我先拿 FP32 把模型训的收敛了,我再拿一个 QAT 的方式,训练成 FP8 这样的小数值精度。 另一个很重要的,我们还做了大量的数据清洗。以往出现这种数据噪点是因为有脏数据,这也是为什么刚刚说我们还是在 1000 万上面做,但是做了大量的数据清洗、数据储备工作,把不好的数据去掉,这样才能让训练变得稳定、收敛,这也是目前大语言模型大家常规的迭代方向,把数据精度做得越来越精细,把数据清洗的越来越干净,它训练也会越来越收敛。 第一个方向是会往 FP8、INT8 方面做。另一个,FP4,这也是像英伟达这些最先进的芯片提出来的,我们能不能把算力再降 1 倍,原来是要 8 个字节才能算一个点,我们变成 4 个。这里面很重要一点,模型的数值参数范围一定要够小,我们训练要更加稳定,每一次数据用量对待你的模型训练迭代都有更高的要求,目前看我们有机会做到这里。 如果你想做 FP4,你要在训练上花更多精力,做更多的数据迭代、数据清洗。目前我们也在做这样的尝试,很快就可以在把 Thor 的芯片压榨出来。 回到 Orin,由于硬件限制,确实没办法做 FP8 这样的计算,但是它有 INT8。所以我们在 Orin 上也是用了 INT4 的量化,再加 FP16 和 INT8 的混合精度推理,逐渐把大模型在 Orin 上部署。再往后走,由于硬件的限制,我们不能做更多的精度压缩。但是我们会把 VLA 的模型体验放在 Orin 和 Thor 上同平台。 问:到 2000 TOPS 之后,帧率能不能跑到 30 帧去? 詹锟:目前来看我们在绝大部分场景,特别是城市,10Hz 是够用的。如果我们算力能用 FP4,那肯定是能 double 20Hz。但需不需要跑到 30,这个得看情况。可能有人说特斯拉跑到 30,我们了解到它也并不是完整的 30Hz,它也有一些其他方法。那我们还是把反应速度和体验做上来,并不是追求一个简单的数字。 问:VLA 更多在做大脑的事情,但感知的问题也不一定完全解决了,包括懂车帝这次测试也显示出有些问题。想问一下我们在做 VLA 过程中,在感知方面还做了哪些工作,以及再往后走还有什么可以做的更好? 郎咸朋:还是要继续提升技术能力,我们现在正好有一个专门的技术能力提升专项,就是要提升感知,在 VLA 中,我们对感知有一个比较大的升级,能看得更远、更精细,比较典型的两个例子是,动态物体从原来 150 扩到了 200 米纯视觉范围,OCC 通用物体检测从原来的 80 扩到了 125,这都是在 VLA 上做的技术能力提升,包括数据、推理性能的提升才能做到。我们会在基础能力上做更多提升。 问:理想是国内 VLA 模型最早落地的车企,肯定也是摸着石头过河,在研发 VLA 过程中哪方面挑战是最大的,或者花费时间最长?在研发 VLA 的过程中,组织架构进行了怎样的调整? 郎咸朋:我们马上就要交付 VLA 了,肯定也是国内最早落地 VLA 的企业。 我觉得挑战最大的是把整个研发流程进行迭代,每一个技术革新也伴随着研发流程或研发方式的迭代,去年端到端需要一个数据驱动流程,我们做得很好,到今年要做强化学习的流程,必须要快速验证我们世界模型的可靠性、有效性,也需要快速搭建高效的仿真环境。我们今年很多推理卡也需要大量的去购买、去部署等等,我觉得研发挑战最大的除了技术本身,是伴随技术迭代的研发流程改革。 组织层面,我们组织并不是大家想象的是一个职能性的组织,还是 IPD 组织,可以理解成是一个大的项目的形式,虽然有部门的分工、分配,但不管去年做端到端,还是前年做无图,还是今年做 VLA,都成立了内部项目组。对我们来说,组织挑战倒还好,因为大家这么多年也比较习惯于这种项目制的研发,这反而成为我们的一种优势,端到端去年是 180 人,今年 VLA 稍微多一点,200 多人,其实并不是弄几千人去做,我觉得不需要。我觉得做得最好的是特斯拉,永远都是那一两百人,做的还都挺好的。 问:理想在整个研发过程中,踩过最大的坑是什么? 郎咸朋:非要说坑可能没有,但我觉得这里面有个最大的体验,还是你对整个行业的判断或自动驾驶的认知决定了你是否会踩坑。 去年也有人问过我类似的问题,我觉得我们是不断持续迭代对自动驾驶甚至人工智能认知的,很早我们就理解自动驾驶是一个人工智能问题,我在之前很多会上或对外的演讲上也都提到过,你想做好人工智能必须做好你的算法、数据和算力。 我们第一个要突破的是数据问题,如果没有数据,其实你的算力、算法再好也训不出来,企业不可能空转,你必须有很好的数据。我们从 2021 年开始做 AD 的时候就开始搭建自己的数据闭环,所以我们在去年做端到端的时候能拿出这么多数据去做。 但在去年做端到端的时候一直也在反思,是不是端到端就够了,如果不够的话我们还需要再做什么,去年我们一直做 VLA 的预研,其实 VLA 的预研代表的是我们对人工智能的理解并不是一个模仿学习,一定像人类一样,是有思维的,是有自己推理能力的,换句话说,它一定要有能力解决它没有见过的事情或未知的场景。这在端到端里可能有一定的泛化能力,但并不是足以说有思维。 就像猴子一样,它可能也会做出一些你觉得超越你想象的事情,但它不会总做出来,但人不是,人是可以成长、迭代的,所以我们一定要按照人类的智能发展方式去做人工智能,我们就很快从端到端切换到了 VLA 方案。 我们一直认知还是比较好的,小坑肯定有,比如算力储备多少,交付快点慢点等,小的工程细节、优化,肯定各家都会遇到,我觉得遇到小坑其实没有问题,但不要遇到大的判断失误,我们运气还是可以的。 詹锟:还是要相信 AI 的力量,相信 Scaling Law。我们之前是相信 data Scaling Law,看到了很好的效果,下一步就是现在的 test times Scaling Law。当我们给更多的数据、更大的训练时长,它总能出更好的效果,我觉得这就是一个需要坚信或者 AI 界现在叫 “the bitter lesson,苦涩的教训”,我们要坚信这个地方。 问:关于芯片量化精度的问题,感觉配合 Thor 芯片上车的过程,应该也不太容易。你们双方当是怎么磨合的?第二个问题,关于云端大模型。友商说自己是 72B 的超大规模参数,这是越大越好吗?车企到底用多少 B 的模型是最合适的? 郎咸朋:我们是第一次用 Thor 芯片上车的,我们也是在过去 L9 的时候,第一个用 Orin 芯片的。再往前,我们第一个用 J3 芯片。我们积累了很多跟芯片厂商的合作经验,包括当时 J3 芯片设计很有缺陷,但我们会跟合作伙伴一起,做优化和迭代,这都是很正常的 在这个过程中,一方面芯片厂商会根据我们的要求,去做芯片设计或者芯片本身的一些调整;另外,我们也会根据芯片本身的特点,去迭代算法、方案,针对它进行调整。因为一个新的芯片应用,一定伴随着相互之间的磨合和迭代。 J3 是我们第一个用的自研芯片,第二个就是英伟达的 Orin 芯片。Orin 芯片我们虽然不是第一个拿到的,但是第一个量产上车、第一个交付的,他们比我们晚了几个月。我们在从拿到到交付大概用了八九个月的时间,别人可能用 12 个月以上。 一方面是我们有很好的工程优化落地能力;另一方面,一个新的芯片做出来,一定还是有一些调整的。我们的迭代速度比较快,不会死扣着一个方案,我们还会根据芯片的特点,做一些调整和优化。 Thor 是一个全新的芯片,在应用、部署方面有什么问题,我觉得都很正常。敢于采用新的首发芯片的企业,都会遇到这些问题,并且把它解决掉。 我们从 2021 年的第一个量产项目就这么做了,到今年也是如此。供应商跟我们的配合也非常好,最早在 J3 芯片的时候,地平线也是非常重视,把它的工程师都派到理想来,跟我们一起到测试厂加班合作,芯片问题他们就及时解决,算法问题我们及时解决。 和英伟达的配合也是一样的,有时候也会一起做芯片的部署、优化等,我觉得这都是很正常的过程,不存在态度上的问题。 英伟达和地平线都是很好的芯片厂商,也都是我们的合作伙伴,我们跟他们有很好的合作基础。我们也知道,芯片的产生,需要有很多输入,我们也在新的芯片研发过程当中,给他提供很多输入,比如 J3 上的问题,它在 J5 上解决了;Orin-X 问题,可能在 Thor 上解决了,Thor 上问题可能会在其他方面去解决。 第二是云端模型是 72B 好还是 32B 好。其实我觉得各有各的好,你愿意用,你用 15B,我也不拦着你。但是你是否能把模型训练的能力蒸馏好之后,不管用 MoE 的方式还是用稠密的方式,落到自己的芯片上,做好优化、量化的部署,并且转换成用户的实际价值。我觉得能做到这点,都是好的应用。 当然,对于我们理解来讲,模型的参数量越大,训练消耗的资源就会越多,效率也会低一点。 另外,如果你想把一个更大的模型蒸馏成一个非常小的模型,在蒸馏过程当中,它的能力损失也可能存在,这里面也很考验各家工程师的优化部署能力。 湛逸飞:刚才提到云端大模型的参数量,其实也不完全看参数量。同样一个参数量的大模型,你给它什么数据也是非常重要的。现在大模型行业甚至有一些大几百 B 的,都是基于互联网去抓取一些通用的数据,而且互联网上的数据污染现在已经越来越严重。我们理想汽车做云端的大模型,是有基于自己的这些数据去做训练,比如它在驾驶场景的理解,比那些通用的大模型要强很多。当然,你不会拿我们的云端大模型去跟那些大模型比编程,因为我们需要的是它对驾驶场景的理解能力。 问:在 VLA 的训练中,怎么避免大模型由于跟人类理解不同从而产生的反常识或者反人类习惯的生成指令?在后续的强化训练中,以什么样的标准决定这个 case 是训练 OK 的?VLA 在理想 i8 上首发,用什么样更的方式能够吸引顾客愿意购买,去展示 VLA 的功能? 詹锟:首先,以现在的技术而言,大模型已经有了一些初步的共识方法和思路。 第一,我们需要对不好的数据做精细的清洗,清洗的越多,质量就越好。第二,合成数据。之前很多大语言模型有幻觉,本质上因为 “大模型” 对这个东西不理解或者没见过,在这个领域之外回答问题。所以我们需要构建很多数据,甚至合成数据,去让它把这个领域理解到位,能把所有的知识知道,甚至知道它什么不知道,这是它很重要的一个能力。通过这两个思路,能大幅降低语言模型的幻觉,甚至反常识的东西。第三,超级对齐,让它去更做到符合人类价值观,比如不能跨对向车道,就是类似的思路。 湛逸飞:首先只有完整的走过这种闭环仿真流程的玩家才能真正去做强化训练。 我们在闭环仿真系统搭建的过程中,积累了一套非常完整对车辆行为判断的系统,这套系统甚至还用了刚才提到的这些云端的 32B 模型,不仅是蒸馏完以后给车端用,在云端用这些大模型去做推理、判断这个车在仿真环境里的行为是否正确,同时我们从很多的维度,包括 “安全、舒适、合规、效率” 等,对车辆的行为做一个评价,总体给出一个打分,我们也叫 reward,目的是告诉这个车在仿真环境里。 郎咸朋:我觉得它的这种体验需要有一个过程,这个过程就是原来从 10 MPI 到 100 MPI,现在从 100 MPI 到 1000 MPI,有可能 100 到 200 你可能还没有太大感觉,但我相信 100 到 1000 的感觉还是绝对可以体验出来的,就像去年端到端和现在的端到端你肯定有很强的体验。 问:关于 i8 有没有做过一些调研,可以支撑纯电的用户会对智驾更加偏好?另外一个是商业上的情况,智驾对于消费者决定购车的要素现在大概是一个什么样的比例? 郎咸朋:我们市场部做过调研,给到我的反馈是需要,排在首选 top3 里的。 现在新购车的人对智驾的要求,我觉得一年前可能大家还有点质疑,但现在我相信一定是排在它的首先选要素里的。去年麦肯锡的调研基本上都是第一或第二的购车要素。 问:今年下半年开始,各家车企都会推进 VLA,理想对于 VLA 这个技术的优势或技术壁垒是什么样的?理想对 VLA 司机的定义是一个更好的家庭司机,未来 VLA 技术会不会拓展到别的产品线或一些服务过程中? 詹锟:我们的技术栈是有延续性的,并不是从之前的规则时代突然跳到 VLA,它肯定会有各种各样的问题,比如有没有把数据积累上来,有没有那么好的训练,有没有那么好的仿真评测系统等等。我们现在做 VLA 是一个延续性的技术架构,把原来的优势都利用起来,站在巨人的肩膀上继续做。 第二,我们在 RD 预研方面其实投入非常多,VLA 在自动驾驶领域是相对新的一个方向和领域,从去年年底到现在做了相当多预研,无论是在各个顶会上的论文,一个是我们在研发上面也专门立了 TBP 的项目,来推进 VLA 的技术探索,这块其实是我们一直在坚持的 “预研一代、研发一代、交付一代” 的思路。所以从时间上来说,我们 VLA 起步相比其他友商或者竞争对手更有优势。 第三,我们相信 VLA 在未来会形成一个更大的、统一的架构。我们也觉得 VLA 是在对物理世界 AI 落地来说,是非常好、非常一致性的前瞻技术,并不仅仅是自动驾驶,可能是物理 AI 目前看到最合理的一个方向。 郎咸朋:补充两个点,第一技术壁垒肯定是有,理想最核心的技术壁垒还是世界模型仿真的壁垒,这个壁垒是非常高的,别人很难短时间去复制出来。因为它的迭代速度得确保,且还得用实车去测试,所以是很难超越我们的。 第二,这肯定是可以拓展的,我们也成立了各种其他的机器人部门。VLA 是一个很好的具身智能的技术框架,可能可以延续到其他方向。 问:Orin X 后续版本的推送是同步的,还是会有差异?Orin X 去推 VLA 的时候,它的能力上限在你们内部去考虑,后续多长时间它会和 Thor U 拉开差距,还是一直去保持同步的更新。 郎咸朋:我们是同步推送的,这次如果 i8 上线的时候,老用户 AD Max 的车主,包括 2022 年买车的,只要你是 Orin X 的芯片或者 Thor 芯片,都会同步的推送。目前测试来看在能力上是没有任何差异的,帧率上也没有差异,我们的工程优化都非常好,都是 10 帧的。唯一的差异就是 i8 的底盘跟 L9 有些差异,舒适度的体验上可能有一些不同。 后续的推送节奏也是同步的,就是 Orin 平台和 Thor 平台同步推送。至于什么时候能拉开差异,我们现在肯定不会做这种差异化。但是随着下一步的迭代,如果我们在 INT4 的量化上有一些突破,那个时候可能会有一定差异,但现在谈这个还为时尚早。 问:VLA 截止目前没有发布明确的规划,是因为商业的因素还是现在的效果还达不到你们的期待?今天体验过程中感觉有一些很明显的不足。比如有些障碍物,还没办法识别。我们今天体验的这一版实车,在你们心里的评分大概是多少?要达到多少分,你们认为才可以大量的推送给用户。 郎咸朋:我们一定会比友商早,是第一个。 第二个问题,我们内部有一个打分的机制,以仿真为例,现在全面对标 OTA7.5,OTA7.5 是我们在端到端上最后一个版本。这个版本内部是有评分的,我们推出第一版 VLA 的时候,包括大家今天试驾这版 VLA,在我们内部的打分已经全面超越端到端 OTA7.5 一点点。但在一些小的分数上可能有一些波动。 但我们真正推送用户之前,会做到一个明显的效果提升,安全、合规、导航、效率等等方面,都会有较大幅度的提升。 让熟悉我们车的人买 i8 一上车就会有非常大的体验。让没用过辅助驾驶的人,使用辅助驾驶的时候,也会有很强的安全感和安心感,而且还有很强的舒适程度。这是我们内部的评分标准。 问:在仿真加进来并且发挥的作用越来越大之后,理想怎么定义所谓的优质数据或者不好的数据? 湛逸飞:我们需要的数据,用一个词总结叫 “老司机数据”。从去年端到端开始一直到现在,我们在云端有很多程序,甚至是云端的大模型,对这些数据进行检查,是否符合我们所定义的 “老司机” 的标准。比如他在正常行驶的时候,不可以不居中。 举一个例子,望京地区有一些右转车道上有违停车道,我们到底需不需要这个车辆可以压着实线绕行过去,如果不压着实线绕行过去,你在望京地区可能就没法完成右转。所以我们对这些数据的理解,花了很大功夫。在这个基础上做了很多清洗,总量还是 1000 万,但实际上是不断替换的。 郎咸朋:我们有世界模型之后,像 corner case 场景以及一些困难场景的数据,我们会通过合成数据来提供。 在端到端的时候,我们的数据更多是用来训练端上的模型,但是到了强化学习之后,数据更大的作用是来训世界模型,让世界模型变得更加符合真实世界。 我们更多的训练数据来自于合成数据。因为量上来说,或者类别来说,已经足够了。但是在细分的类别上,还是需要更多用合成数据来补充我们的训练。 各家做的也不太一样,5 年前确实理想作为一个追随者,进入了自研自动驾驶的赛道,但我们对自动驾驶的思考并不是从 2020 年开始的,我们刚进理想的时候,当时李想面试的时候跟我聊,想在自动驾驶做成功或者做到第一,你觉得最重要的是什么? 我说现在来看就是数据。虽然说别的都很重要,但数据必须要提前开始准备,我们从理想 ONE 开始做数据闭环的一些工作,当然那时候数据还比较少。给大家公布一个数字,其实 2021 年大家也觉得我们做得挺快的,虽然有地平线芯片的加持,当时做的 ADAS 也不是特别难,但工作量很大,那时候我们训模型的数据并不是买的,而是在 2020 年通过第一个完整的交付年累计了 1500 万左右的有效回传数据,我们做了很多数据标注,样本是从这积累出来的。 从那开始慢慢往后做,这 5 年做下来,从去年端到端开始,业界或我们的竞争对手把理想自动驾驶当回事了,但为时已晚,因为这些能力不是一天两天就能建立起来或者达到我们效果的,今年开始做 VLA,我们是第一个提出并马上是第一个交付的,很多人还在嘴上说,还在用端到端的方式去做 VLA。 刚才我画了一个图,想表达一个观点,如果还是沿着端到端思路去做所谓 VLA 的话,你的速度一定会变慢,不管是 1000 万,还是 2000 万,哪怕是 1 个亿的 Clips,首先你要训 1 亿个 Clips 需要多大的训练算力,模型得搞到多少先不说。另外,你的迭代速度会变慢。 如果你没有很好的世界模型、仿真环境,世界模型不是部署在车端的,是在云端的,云端的世界模型真的是帮助我们算法训练的,模拟了一个真实的物理世界,我们现在是场景的生成,在结尾处给它秀了一段 1 公里 ×1 公里的完整的区域仿真,如果再做的完善一点,我们最终的目标是让算法在模拟世界里跑极品飞车,像《SimCity》,是模拟的一个城市环境。 我们希望在我们生存的世界里是一个完整的 Agent,有车来撞它时它会躲,有人走过来它会让。所以我刚才秀了一段我们的 3D 资产,就是每一个里面的交通参与者,我们都有他的 3D 模型,并且赋予他 Agent 的智能体,所以他在我的环境里不管是静态的东西,还是动态的东西,是一个完整的、真实的物理世界的 “纯仿真、纯模拟”,如果达到这种程度,我的车、我的算法在这里面跑一天,等于你在真实世界里跑好几年的训练速度,那时候会非常快。 所以,我觉得 VLA 现在可能看起来很慢,就像去年端到端一样。其实端到端已经非常快了,从 2021 年到端到端,我们走了 3 年多时间,其实还是站在巨人的肩膀上,如果再往前走,整个行业从规则算法走到端到端,可以说走了 10 年左右,但是从端到端开始迭代会非常快,因为那时候整个工程、数据都会成熟起来,到 VLA,我认为也是这样一个速度,大家可能现在对 VLA 还没有什么感觉,就是做了一个比端到端稍微好一点的感受,但一年之后一个 1000 MPI 的产品放在你面前的时候,相信大家都会觉得自动驾驶真的开来了。我相信在这里面真正有技术、真正有能力、真正有责任心的企业一定会率先跑出来,我相信理想肯定是这里面第一个会走出来的。 问:关于仿真数据,有报道说特斯拉为了拿到更优质的数据或者没有受过污染的数据,请了几百个老司机天天在外面开,通过这个数据来训练它的模型,而我们现在把大量的精力都放在了仿真上,有没有类似这种专门的 “老司机数据”?用仿真学习的话,从第一轮训练出一个实习司机,到第二轮就能训练出一个老司机,这个过程大概要多久? 湛逸飞:强化学习的过程其实就是每一轮每一轮的仿真,我们每一轮会给它一个打分,一个 reward,这个 reward 会反向去改变模型里的一些参数,这个模型参数改变以后,我们又会把它拿过来仿真,它再产生一个新的行为,这是一个循环交替的行为,至于什么时候结束,其实不确定,直到它通过了我们整个在仿真环境里的 metrics,我们就会判断这个场景的训练完成了,它已经学会了这个场景,所以并不是一个瞬间完成的,也不是一个固定长度,可以理解为跟这个场景的难度是相关的。 问:大家都说多模态模型还没有进入所谓的 GPT 时刻,无论是对世界的理解,还是数据的训练,虽然大家都模模糊糊看到一个方向,但具体怎么做没有一个明确的解法。你们这个方案是一个足够好的解法吗?它抵达所谓的 GPT 时刻还需要多长时间? 詹锟:多模态没有达到 GPT 时刻,可能指的是 VLA 这种物理 AI,特别是在机器人领域,具身领域可能并没有达到 GPT 时刻,因为它没有那么好的泛化能力。但在自动驾驶领域,其实 VLA 解决的是一个相对统一的驾驶范式,是有机会用这个方式做到 GPT 时刻的,我们也非常承认现在的 VLA 是第一版本,也是业界第一个往量产上推的 VLA 版本,肯定会存在一些缺陷。 我们想用 VLA 来探索一个新的路径,它里面有很多尝试,有很多需要去落地的探索,不是说不能做到 GPT 时刻,就不能去做量产落地,它有很多细节,包括我们的评测、仿真去验证它能不能做到量产落地,能不能给用户 “更好、更舒适、更安全” 的体验,做到以上三点就可以给用户更好的交付。 GPT 时刻更多指的是具有很强的通用性和泛化性,这个过程可能随着我们自动驾驶往空间机器人或往其它具身领域去拓展的时候,会产生出更强的泛化能力或者更综合的统筹能力,我们也会在落地以后,随着 “用户数据迭代、场景丰富、思维逻辑性越来越多、语音交互越来越多” 逐渐往 ChatGPT 时刻迁移。不是一定要达到 GPT 时刻才能做一个自动驾驶模型,比如我们落地了 VLA 以后,逐渐会往 “更丰富、更通用、更多样化” 能力去做的 VLA 模型。 像郎博说的,到明年我们如果到了 1000 MPI,可能会给用户这种感觉真的到了一个 VLA 的 ChatGPT 的时刻。(转载自云见Insight)
