

作者:张小珺
2025年4月,我与理想创始人兼CEO李想录制AI Talk第二季。那次对谈持续了很长时间,播出版仅1小时,今天你看到的是完整版。
这一集节目的发布比预期晚了些。过去几个月实在太忙了,我一度犹豫要不要继续放出。但当我重新整理这段文字时,仍然被它打动——这是一份关于人工智能技术变革的“节点式思考存档”。
革命仍在进行,震动仍在扩大。你可以结合2024年底我们那场3小时谈话一起观看,感受两次对话之间,思考的延展与呼应。
这次,我把李想当作一个“CEO大模型”来提问。
假设他是一种MoE(Mixture of Experts,专家混合)架构的模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。
“AI与人的关系”,是本次对话的母题。
以下是对李想的访谈。

播客和视频将同步上线。播客登陆小宇宙、苹果Podcast、Spotify,视频登陆Bilibili。搜索:张小珺商业访谈录。
第一章
假若你是一个CEO大模型
01 AI做熵增,人类做熵减
张小珺:我们今天来做一轮Long Contest长文本对话。假设你是一个“CEO大模型”,你现在能支持的上下文窗口有多大?
Google和OpenAI(截至2025年4月)能支持100万个Token,你呢?
李想:人类的生理特性与人工智能有本质差别。人类并不擅长处理特别复杂的信息——人类要做“熵减”,而不是“熵增”。人类之所以发明方法论、创造工具,本质是为了减少能量消耗——因为大脑运作需要能量。
人工智能非常擅长处理庞大的信息规模。今天预训练数据量,已经不再是15T,出现了像Llama 4这样30T的。
从某种程度,人类和AI应该是很好的伙伴:各自做各自擅长的东西。
张小珺:总体来说,你觉得人不像模型。
李想:人类可能更像小型模型吧。我们通过读书、学习,获取知识,这某种程度是预训练;随后,我们将这些知识变成业务去做,就像推理,并通过推理调用工具实现。
今天的人工智能,处理通用信息表现不错,但一旦进入专业领域,往往不如人。这是因为,这些领域需要更高质量的数据和更专业的CoT(Chain of Thought,思维链)。这是人工智能接下来面临的挑战和价值。
张小珺:距离上次访谈过去了130天,你最大的进步是什么?你有成为一个更智能的李想吗?
李想:这130天,我更高兴看到整个中国的进步。包括DeepSeek、千问(Qwen),可以让中国无论基座模型,还是Reasoning推理模型,还是多模态,跟美国距离拉近,或者在一个水平线。中国企业做的模型效率更高。
包含后边我看到比较欣喜的,在Agent(智能体)上突破,无论Manus还是Genspark,树立了我们把AI做得更好的信心。今天大家讲语言模型,但我认为语言模型只是世界重要组成部分,并不是全部。
我们要想理解物理世界,让一个终端或机器人在物理和数字世界运行,要做的工作非常多——这让我们坚信,这条路走下去是对的。
张小珺:那你有变成一个更智能的李想吗?
李想:没有那么大变化。从实际角度,人工智能发展这么好,我每天工作时间并没有减少,还在增加。
身边所有同事、朋友都讲人工智能怎么好,但大家工作时间并没有减少,工作成果也没有实质改善。我们得思考新技术发展阶段的问题。
今天Chatbot,或者Reasoning,做更长链条思考和推理任务时,也能看到一系列严重的问题——几乎所有人,还是把它当成“信息工具”。
如果是“信息工具”,AI不是完美的——它最后一定要给你Next Token(下一个词元),一定要给你一个结果。大家使用时会先通过Rag联网搜索索引信息,但索引信息源往往失真和不准确。虽然认真做推理,但过程和结果有问题。
如果我们不改造机制,仍然做熵增,会增加大量无效信息、无效结论。
张小珺:而且,这个世界突然遍布了有幻觉的信息。
李想:你看,DeepSeek刚推出,很多人把DeepSeek推理过程转成图片发小红书,很多人看。今天没人发了,因为发了没人看,内容千篇一律。这是很大挑战。
我在思考一个问题:还是要站在用户价值的角度,如果大家拼命使用AI,为AI投资,但我的工作时长没减少,结果也没变好,问题到底在哪?——这是过去几个月我跟很多人聊、思考、内部讨论非常多的问题。
不要把东西缠绕在一起,我们可以先做一个分类。人类历史上也有类似分类。
今天通过对话(Chatbot),无论文本多么长,它都是“信息工具”,对大家是参考作用。
拿AI给你一个股票投资结论,或者职业生涯决策结论,但你每天8小时工作,还是优先完成公司给你的KPI、OKR。如果没改变这些,其他东西并没改变工作效率和成果,只是给了建议,或者在脑子空转一圈。
再往下,AI变好以后,会变成“辅助工具”。我们做的辅助驾驶,大家在车上用人工智能语音导航、查美团、调音乐,会提高效率,但仍离不开我们。这种角色像“辅助工具”,体验比以前好,但还是辅助的。
什么时候真正改善工作成果和减少工作时长?它必须变成“生产工具”。
我认为,Agent(智能体)最重要评判的条件是:它是否是“生产工具”?它是否能替代我完成专业工作?是否真的产生有效生产力,解决我工作中最重要的8小时?
这是我接下来对Agent最重要的衡量,也是Agent意义所在。
张小珺:以上是你对于工具的三个分级:“信息工具”、“辅助工具”和“生产工具”。
李想:对。人工智能变成“生产工具”,才是真正爆发的时刻。
张小珺:到今天为止,没有任何一个AI产品满足成为“生产工具”的基础条件吗?有没有一个或两个产品,摸到了这个标准的边?
李想:“信息工具”,往往不会让人愿意付费;“辅助工具”,是你认为产品本该具备的,因为它只提升了现有产品的竞争力;“生产工具”重要的衡量是:你愿意为它付钱。
目前我从同事身边听到的、算初级生产工具的有:
一个是Cursor,编程同事在用;
一个是OpenAI的Deep Research,商分和战略团队在用。
他们是自己付费,并没有花公司的钱。
张小珺:为什么到今天,大部分AI产品还没有成为“生产工具”,是因为智能水平不够吗?在你看来,“生产工具”组成要素是什么?
李想:我认为必须有Action(行动)。不能只是“知”,必须“行”。“知行合一”才能成立。
今天o1、o3、R1很多模型很聪明,但没有行动,只是给出策略并做策略推演。
工作时,我们仍需要通过操作电脑,或者借助物理世界的工具处理工作。像Manus在行动层面做了很多工作。自动驾驶是控制机器在物理世界中行动。所以,必须能行动,才有可能实现生产力提升。
张小珺:你怎么看Manus这个产品?
李想:从产品创意来说,它从“信息工具”迈往“生产工具”走的最大一步。
它通过建立虚拟机(virtual machine)和调用工具(tool invocation)实现更多实际操作。
一个很大的问题是,过去相当长一段时间,几乎所有模型公司都认为不需要额外的工具或软件,模型就能替代一切。
举个例子,假设你比我聪明10倍,但用手挖坑;而我虽然笨,却用铲子挖坑——效率仍然会比你高。这就是工具带来的巨大差异。
张小珺:我如果比你聪明10倍,我不会拿手去挖(笑)。
李想:但如果你没有工具。
工具意味着,更高的确定性、更低的能量和Token消耗。很多时候,更好的大脑和使用更好的工具,并不冲突。由于大脑变强以后,工具也能随之变强。
Manus从调用工具的角度完成各种任务,不依赖RAG,而是浏览原始资料,比如:
分析特斯拉股票时,直接访问SEC网站 浏览特斯拉投资者关系网站 阅读顶级投行分析师的特斯拉研报
这种方式更接近真正专业工作人员的工作方法,而不是仅用RAG做信息索引。只是Manus作为通用Agent,覆盖面太广,这也是一个很大挑战。
张小珺:为什么这样一个Agent是一家应用型创业公司做出来的,你有想过吗?
李想:我个人感觉,在一个新技术产生时,大公司或创业里的大公司,容易把分工分得太精细了。但往往一个好产品需要多个东西组合。
如果做模型的人坚持“我就要把模型做好,用模型去解决一切问题”,会变成很大挑战。
张小珺:我们刚才说的是过去130天,李想的进步是什么。那么,过去130天,理想这家公司最大的进步是什么?它有成为一个更智能的组织吗?
李想:我们没有那么快变化。
我们作为一个3万多人的企业,如果想发生重要变化,还要围绕真正的用户价值产生变化。不能只是因为技术发生变化,我就改组织。
我自己看所有变化之间的关系——第一,我会把规模放到中心,因为规模是确定性指标,做1000亿收入还是2000亿收入。
第二,围绕规模外面,有三个动态变量:
用户需求的变化 技术产品的变化 组织的变化
这三者之间的变化,我会相互诊断。
如果只是技术产品变化,用户需求没有变化,我不会轻易调整组织。很多时候当我看到用户需求发生变化,产品和技术与用户需求产生结合,组织变化才必须跟上。
不能因为今天出个新东西就调整一下,明天又出新东西又调整一下——这肯定有问题。
02 梁文锋极简运用了人类最佳实践
张小珺:DeepSeek改变了全球AI叙事,你从DeepSeek身上学到了什么?
李想:我学到最好的是:它极简地运用了人类最佳实践。
它在做DeepSeek V3时,V3是一个MoE(Mixture of Experts,专家混合)6710 亿参数模型。MoE是个非常好的架构,把一堆专家组合在一起,每个是一个专家能力。
它在构建专家能力时,DeepSeek展现了一个最佳实践:
第一步先搞研究,这非常重要,任何时候想改变或提升能力,第一步一定是搞研究; 第二步,搞完研究后才搞研发; 第三步,研发完成后,要把能力表达出来; 第四步,能力变成业务价值。
这四个步骤是极简人类最佳实践,但我们经常做着做着就忘了。看到什么东西就直接启动研发,没有先搞研究。
我们自己也很受益,不管是端到端和VLM(视觉语言模型),还是今天做VLA(视觉语言行动模型),我们的研究团队表现非常好。李飞飞的Thinking in Space也引用我们DriveVLM的论文。研究跑通后,研发效率会非常高。
研发又非常注重价值,把价值表达出来,变成业务,这是很重要的过程。
举个例子,我们端到端的系统,是唯一展示端到端怎么工作的——怎么取轨迹,端到端Attention(注意力机制)怎么工作,VLM怎么工作。这本身是能力展示,让使用者和所有参与者都能理解。
DeepSeek R1又遵循另外一个,它是Reasoning(推理)模型,说白了是业务。没有用户就不是业务。
从思维链看,它遵循了人类业务的极简最佳实践:
第一步,索引分析,用户给你需求先做索引分析; 第二步,确定目标,用户很多时候只给提示或方向,没有给出目标,它通过分析制定接下来要推理的目标; 第三步,涌现策略,当然推理模型的策略本身是推演的执行; 第四步,做一定的反思、反馈,检查结果和目标之间的差异。
这跟人做业务很像,人做业务也要:
做用户和市场分析; 针对用户确定目标; 制定策略并执行; 复盘。
不过,DeepSeek还不是完整的“知行合一”,虽然给出了“行”的策略,但没有真正行动,比如控制机器或操作软件。但它某种程度是“知行合一的脑系统”。
它就是人类最佳实践,只是人类做着做着就遗忘最佳实践了。
我们想拉一群人推进业务,但就你一个人做分析,一个人制定目标,又逼大家去执行;当你发现目标错了,你要改东西的时候不复盘、不分析,也不重新设定目标,就直接去改策略。所有参与者都会困惑:这到底发生了什么?
张小珺:在这些步骤中,人类最容易遗忘的是哪个?
李想:在做能力的时候,大家最容易一开始就直接搞研发,既不做研究,研发完也不做能力展示,也不真正面对市场实战,认为研发完就拥有了一切。
在做业务的时候,最大的麻烦是,大家遇到问题只想改策略,不做复盘,不做用户和市场分析,也不一起确定目标。很多人都想自己做决定。这是最大的问题。
严格按照最佳实践,其实是反人性的,随心所欲才满足人性。
所以,一个卓越的组织、一个卓越的人,很多时候要跟人性做对抗。
张小珺:你怎么看梁文锋?他是怎么找到你所谓人类最佳实践的?
李想:我只跟他聊过一次,在2024年9月。我印象特别深,应该是ChatGPT o1发布前几天。
我个人感觉有两个特点:
第一,他是个特别自律的人;
第二,他会在全世界范围内研究和学习最佳实践和最好的方法论。
张小珺:怎么理解他的自律?
李想:能够坚守自己相信的东西,坚守最佳实践。能和人性的懒惰、走捷径做对抗。也正如此,我们更加敬佩他。
DeepSeek的出现对我们加速做VLA有巨大帮助。语言模型这一块,本来我们打算今年底才能做出一个像样、满足我们需求的版本,但因为DeepSeek开源,我们进度加快了9个月,带来了巨大的收益和帮助。
我们受到了那么大的帮助,就在想能对社会做点什么贡献,于是把操作系统开源了。
没有大家想得那么复杂,我和谢炎(理想CTO)内心想法是——DeepSeek给了我们这么大的帮助,我们也应该对社会做点贡献。
说白了,纯粹是感谢DeepSeek。
张小珺:这是一种情怀,不是一个公司战略,对吗?
李想:不是公司战略。
张小珺:DeepSeek感觉给技术社区带来了更多的善良和善意。
李想:是的、是的。
张小珺:他们当初应该接这一波泼天流量吗?
对于AI产品来说,用户的数据能带来护城河吗?DeepSeek在2025年过年时拥有了很高的DAU(日活跃用户数)。
李想:我的理解是,他们的卡(GPU算力)是有限的,如果把更多卡用来做推理,那怎么去做训练、怎么去提升能力?
今天距离我们想象中的通用人工智能很远,他们只保留一部分卡来获取一定量的用户,因为这些用户的query(查询请求)对他们有帮助,但太多也没意义。留着更多的卡和资源还是用来继续提升能力。他们看得更远。
张小珺:你有没有想过,DeepSeek为什么不是你做的?
李想:我只能做最好的自己。
我一直在自己的长板延长线上。从最开始做个人网站,到做产品IT网站,到做汽车网站,最后希望改变汽车行业,推出更好的产品,并把汽车叠加下一代信息技术——这是我的延长线。
他(梁文锋)的延长线是从人工智能开始的。他在浙大学的就是人工智能,那是他的延长线。
我也相信,量化交易公司在模型理解、工程能力上,不会比任何互联网公司差,甚至要更强。
03 理想为什么还做基座大模型?
张小珺:在DeepSeek全球爆火的那个春节,你是怎么过的?
李想:春节过得挺好的,还带着孩子去看《哪吒2》。
我印象中1月20号DeepSeek R1上线,开源,我们做研究,分析它为什么做得好。包括训练和推理的效率,以及MoE模型在部署时对内存占用的挑战。我们自己也开始在芯片上写FP8(8位浮点数)工程优化,因为我们有编译团队。
比较有意思的是,我一开始没敢直接找模型团队聊,而是先跟谢炎聊。
我说我们要做VLA,一个很重要的计划是,到今年9月能做出一个非常好的语言模型,再往下训练VLA。
但我们预测,到9月份做出来的模型,能力是否能超过DeepSeek V3加R1?我说,至少我听你们说的,不如它强,而且它开源得如此彻底。我们是否应该基于它的开源,去做VLA的 L(Language,语言)部分?比如在理想同学中用的就是VL(Vision-Language,视觉-语言),没有A(Action,行动),把视觉和语言放在一起,做成端到端的方案,包括语音交互。
我们原本要等9月以后才能做这些工作,我们是否应该站在巨人的肩膀上直接做?谢炎说,肯定应该啊。
当时我们比较担心陈伟团队(基座模型自研团队)怎么想?这个压力挺大的。但后来发现他比我们还坚决。
他说,这会加速我们下一步工作,我们应该以它为基础,加速VLA和端到端多模态的进展。
研究团队也在研究如何在芯片上达到同样的训练和推理效率。所以,拥抱DeepSeek的过程比想象更快,我们VLA推出的速度会比原计划快。
张小珺:今年你们有一项组织调整,陈伟(基座模型负责人)转向CTO汇报,这项变化的原因是什么?
李想:这时候我们意识到,我们有三类不同的重要业务:
一个是内部的,各种办公什么的,它比较需要Language加一个Agent OS的方式实现,这需要有基座;
另一方面,我们理想同学,不管是车机版还是手机版,它需要多模态,又能看到物理世界,又有实时语音,它应该是一个端到端的VL;
还有,如果我们要做自动驾驶,要做机器人,要做工厂机器人,它就应该是一个VLA。
就跟今天大家看到的,千问或OpenAI团队一样,它会做多模态,会做推理,也会做基座。我们需要有一个团队,为我们不同业务做出适应的模型。
张小珺:你为什么一开始不敢跟模型团队提?后来是怎么聊的?——你开口第一句话是啥?
李想:因为让大家用别人的开源,是需要心力很强的过程。但后来发现他们没那么在意。
我说它开源程度基本接近Linux,比安卓开得还多。安卓也是基于Linux开发的,有它对应的组件、各种API。
我们是基于这个Language开发出来语言模型加Agent OS给自己用。我们做出来的东西变成多模态,能调用各种API服务。我们做的模型能控制机器人,很像Linux上面开发了安卓,或者各个专业领域的操作系统很像。
还是希望说服大家,但是大家拥抱起来很快。
张小珺:这是春节后做的第一个决定?
李想:春节期间就做了决定,在上班之前。我跟谢炎打了最多电话。我们还有一个专门的人工智能战略小组,在里边不停聊,发现大家并不纠结。
我们这家企业的基因,还是要为用户推出最好的产品和服务。
张小珺:2025年春节之后很多人问我,理想还做基座模型吗?——既然都有DeepSeek,为什么还要做基座模型?
李想:因为我们的业务意味着,并不是做好语言模型就够了。我们车上要有对话,有多模态,仍然需要我们自己训练一个根据我们需求的基座模型。
包括我要做VLA,里面哪怕V(视觉)和L(语言)都跟正常的不一样——我需要有3D的Vision,还有高清2D Vision的Token(词元),要做预训练,还得涉及更专业的交通领域语料,以及面向家庭用户的语料来做训练。
很重要的是,大家做VLA训练的时候,基座模型会把VL(视觉-语言)连起来的组合语料放在一起训练。OpenAI和DeepSeek都没有这样的数据,也没有这样的场景和需求,也不解决这样的问题。所以只能我们自己来做。
好处是VLA里的Language,我可以站在巨人的肩膀上,但它只是我其中一部分。
张小珺:所以一方面是拥抱了DeepSeek,另一方面你们把基座模型的团队拆出去,加大了投入。加了多大?
李想:首先训练卡,比今年预期多买3倍。
张小珺:你要训多大的模型?
李想:并不是一个固定的,会有不同版本。
比如说,给理想同学用的,会是一个300B(3000亿参数)的模型;
给辅助驾驶用的VLA里,VL部分是个32B(320亿参数)的模型。
我们真正工作中用的,也会用那个300B的模型。现在大概是这两个版本。
张小珺:刚才我们说的是基座模型,下面聊聊理想同学。
你现在对理想同学这个App的定义发生变化没有?2024年底我们聊的时候,你正好宣布要推出理想同学手机版本的App。
李想:DeepSeek太强了,还有一波借助DeepSeek推流量的,像腾讯元宝,这些东西太强了,它们有流量。
我跟团队讲,现阶段不要去做任何推流,不要推广,不要营销。更重要的还是锻炼能力,把握用户需求。
我们今天有三个版本:车机上的理想同学,它既是AI信息工具,也是AI辅助工具;手机上有理想同学App,是纯粹的信息工具;还有电脑上理想同学网页版。
这三边可以连起来,方便我们100多万用户需要的时候连着用。
张小珺:今年2月5日,也就是春节后你们的第一个内部AI例会,你在会上说,DeepSeek更像是Linux推出,而你们要去追安卓时刻。你准备怎么争夺安卓时刻?
李想:这是个比喻。安卓相当于基于Linux开发出来的手机操作系统。我们以语言做基础,我们的VLA就是把Vision(视觉)做成最强,把Action(行动)也做好,借助Language(语言)能力。
VLA比较像汽车或交通领域一个更重要的大模型或操作系统——这是我们的机会所在。
第二章
调用MoE之技术专家
04 李想手把手教你训VLA
张小珺:我今天想把你当做一个CEO大模型。MoE架构里的E是“专家”,我们先调动一下你的“技术专家”,聊聊你们最近做的VLA架构。
今天的辅助驾驶到了一个新的十字路口,有人说辅助驾驶应该被叫停,你怎么看?
李想:我们这么多年,从规则算法做到端到端加VLM,今天真正迈入VLA,比较像“黎明前的黑暗”。黎明马上要来了,但会先经历黑暗,之所以有黑暗是为了迎接黎明。这是今天的阶段。
因为辅助驾驶行业遇到问题,我最喜欢的是去解决行业解决不了的问题。就像我们推出增程,是为了解决电池成本高、充电难;推出5C是为了解决充电慢、等待时间长。
我们愿意解决各种行业难题,包括我们做操作系统,也是因为过去传统的车控和智控操作系统,性能差、开发缓慢、芯片匹配周期长。这些问题恰恰是我们的价值所在。
张小珺:为什么人类一定需要辅助驾驶?为什么科技不能就此止步?
李想:只要人类还会雇司机,人工智能技术就是把类似的功能和角色变成生产力、生产工具,去进行替代。
张小珺:什么是VLA?——能不能从用户语言讲,不要用技术语言。
李想:VLA,机器人领域也在讲;对于我们理想汽车,VLA是一个司机大模型,是像人类的司机一样去工作的模型。
达到VLA不是突变的过程,是进化的过程,经历了三个阶段:
第一阶段,我们从2011年开始,通过机器学习的感知,配合后边的规则算法,包括规划、控制、执行这些规则算法分段式的。
第一个阶段比较像什么?昆虫动物的智能。它有既定规则,还要依赖于高精地图,比较像蚂蚁行动和完成任务的方式。
它效率比较低,也是个麻烦事。它的模型规模大概只有几百万参数,它就那么小一个脑子,你让它去完成复杂的事情,几乎不可能。所以你不停地限定、限定——几乎把它做成一个有轨交通。跟蚂蚁非常相似。
第二个阶段,我们从2023年开始搞研究,2024年推出端到端。端到端比较像什么呢?哺乳动物的智能。
马戏团的一些动物,向人类学习怎么骑自行车。但它对物理世界并不理解,只是看到了一个三维图像,知道自身的速度,并给出一个什么样的轨迹。它应付大部分泛化是没有问题的,但面对从来没有学到的、特别复杂的情况,就会遇到问题。
这时我们也会配合视觉语言模型(VLM),放进来。但我们能够用到的视觉语言模型这些开源的,用在交通上的能力非常有限,只能起到一些非常有限的辅助作用。
第三个阶段到了VLA,就是完全人类的运作方式了。
它会像人类一样,用3D的Vision和2D组合,去看真实物理世界,也包含它能够去看懂导航软件,这样的软件是怎么在运行,而不是像VLM只能看到一张图片。
另外一方面,它有自己的脑系统,不但要看到物理世界,还能够理解物理世界。它有它的Language,有思维链,有推理能力。它能够像人类一样,真正去执行这样的行动。
如果放在汽车、自动驾驶、辅助驾驶领域,我们把它称之为“VLA司机大模型”。
如果你感兴趣,我给你讲一下VLA是怎么训的,以及VLA自己怎么去工作的。
确实我听了你的很多期播客,大家都在讲VLA,但我觉得大家讲得并不清楚。尤其到后边训的时候,大家一带而过,往往只是引用论文。我们是真正在干这事的,而且我们有足够多语料,所以我们来讲一下。
第一是训练环节。
这里边,跟过去这些语言模型的差异在于什么呢?
第一,我要放入更多Vision语料,放入Vision的Token(词元)。
Vision包含两部分。第一个是物理世界3D Vision。第二个是高清的、2D的Vision。因为今天大家看到各种多模态的开源VLM里边,它整个2D Vision清晰度太低,所以看的距离不够。我们放进去的基本上图像分辨率提升了10倍。这非常之重要。
这是一个部分,是Vision的Token和语料。
第二,是要放入Language,跟交通、驾驶相关足够多的语料。这是Language部分。
第三,很重要的,是大家容易忽略的,就是我们必须放入很多VL(视觉-语言)联合语料,就是三维图像和对世界的理解语义要同时产生的。我举一个例子,我要把导航的地图和车辆对导航地图的理解一起放进去。
张小珺:这是原始数据吗?
李想:没有原始数据,所以我们才有。比如我要放入一个,看到导航以后人类做了一个什么判断,这个判断我们的车辆是怎么记录的。把这个语料放进去。
整个VL(视觉-语言)基座模型训练的时候,包含三个部分数据:Vision(视觉)数据,Language(语言)数据和VL联合数据。它形成VL的基座。
同时我要把这个基座干什么呢?我要蒸馏下来,变成一个3.2B(32亿参数)端侧的蒸馏模型。因为我要保证它运行速度足够快,无论是在两个Orin-X还是Thor-U上都能流畅运行。
所以,蒸馏下来是一个3.2B、8个专家组成的MoE模型。因为如果直接跑32B(320亿参数)一个完整模型的话,Orin-X和Thor-U的帧率达不到,Token(词元)输出率也达不到。
这是第一个步骤,是预训练环节。相当于学习人类的知识,先学习了人类怎么理解物理世界的知识。
第二个步骤是什么?做后训练。
第三个部分是什么?是强化,要做强化训练。比较像人到社会上开车了。
所以,要通过人类的RLHF,跟人类做对齐,跟社会环境对齐。另外通过纯RL强化,从而开得比人类更好,比人类的平均值好得多,解决更复杂的问题。
这还没有完,这是有了VLA。但人类是怎么跟VLA工作的呢?我要搭建一个司机的Agent(智能体)。
司机Agent是什么?是人类以自然语言的方式,就是你跟一个司机怎么说话。假设你有男朋友,你男朋友在开车,你怎么跟他说,你就怎么跟司机Agent说。
张小珺:这些步骤哪个是最难的?
李想:前面没有任何人走过这条路。我们走的是一个无人区。
张小珺:你们为什么bet(押注)这条路?我前段时间做了一个技术播客专门讲VLA,这个技术路线似乎还没有收敛。
李想:交通领域应该是VLA最早实现的。
第一,交通的世界,一个车会跑到哪里,虽然它复杂,但是确定的——车又不能开到水里,也不能开到空中,只能开到有路的地方——它是复杂但具备确定性。
第二,车的控制,车是个3 DoF(自由度)——左右是一个自由度;前后是一个自由度;还有一点轻微的旋转,是一个自由度。辅助驾驶就控制两个多、撑死就三个自由度。如果这个都不能实现,机器人上来就是40多个自由度,挑战就更大了。
所以,我们进行模仿学习特别容易。车看到的就是人看到的,人操作的就是车操作的。它能做特别好的模仿学习。
第三,它还能做特别好的强化。大家在使用中,不满意就接管了,这就是跟人类没有对齐,它就告诉你不应该这么做,以及告诉你该怎么做,这是非常清晰的指标。包括哪怕不做人类监督,靠生成数据来做训练,也非常清晰。
因为什么是舒适,G值是可以表达的;什么是符合交通规则,是能够表达出来的;是否发生碰撞,是可以表达的。如果它很舒适,不违反交通规则,又没有发生碰撞,A点到B点就会开得越来越好。
交通是VLA第一个重要的实验场。
05 五年内没有通用Agent, 但会有Agent OS
张小珺:我有一个感受:很多人说做AI是在“造人”,你们这个是在“造司机”。
李想:对。我一个很重要的感觉是,我们只有让它变成一个真正的司机,它才是一个“生产工具”,不只是一个“辅助工具”。今天L2、L2+是个“辅助工具”,需要人大量参与。
但如果想变成“生产工具”,我个人认为并不会出现通用Agent,而是每个专业领域做专业Agent。
就我刚才讲的,要想开好车,它所有Vision(视觉)语料、Language(语言)语料和Action(动作)都是不一样的。想做好一个医生,想做好一个律师,包括背后的思维链、所有的数据,是完全不同的。
另外一方面,如果你想变成一个“生产工具”,就会和专业的人比较——你是否比一个专业司机开得更好?是否比一个专业医生表现得更好?是否比一个专业律师表现得更好?是否比一个专业程序员表现得更好?你会影响他的生产、业绩、工作结果,甚至财产和生命安全。
这是我们看到的终点。
这也是为什么我们必须很耐心、深入去解决哪怕一个司机的问题。
它不可能通过一个泛化的大基座模型,或者大语言模型,都能实现——这是不现实的。
张小珺:为什么通用Agent不如专业Agent?我们需要通用Agent吗?
李想:可以给通用Agent换个描述方式——通用Agent比较好的描述方式应该是Agent OS(智能体操作系统)。
我个人认为,至少5年内不会有通用Agent,但会有一个Agent OS,方便各个专业的人在这个Agent OS上开发出自己需要的Agent。这个反而我认为是需要的。
张小珺:可以想象Agent是不同工种,他们共享一个Agent OS。
李想:对,因为你要成为一个生产工具,就必须替代和解放人类真实、高频的工作,比如开车、编程,而不只是做信息索引,在脑子里转一圈就结束了。这是根本性不同。
这时候,它会影响你的收入,调用你的资产,使用你的工具或财产,比如电脑、车。
包括对齐的要求也不一样。比如,你今天拿什么查找一个信息?用DeepSeek或OpenAI去查,就会用RAG(检索增强生成)做索引;但如果你用Deep Research或Manus,它会去找信息源头,而不是简单通过RAG。专业人员一定会找信息源头,才能往下做分析。
张小珺:我听说你们也要做Agent OS?
李想:我能想到我们在To C(面向消费者)能做好的Agent,只有司机这一类,其他我们不专业。比如教育,应该猿辅导、好未来做。可能最后Agent会搭载在我们的车上,这是有可能的。
但更重要的是,先做好公司内部的Agent,因为公司内部需要有很多Agent——客服Agent、编程Agent。
我提出一个很重要的需求:这些都在谢炎团队——基座模型团队、操作系统团队、智能商业团队,这三个团队如何联合,搭建出一个有效的Agent OS,让每个专业的人在上面开发自己所在领域的Agent?
你不可能让智能商业团队做客服Agent,应该是客服团队借助这个Agent OS,开发出自己专业的客服Agent;销售团队做出电话专家的Agent;开发人员做出编程的Agent,以及对应他们验证实验的Agent——都应该由每个专业自己做,不会有一个团队帮大家全部做好。
但智能商业团队可以把公司内部Agent OS搭建出来,让所有人方便在上面放入自己需要的数据、语料,做训练,调整这个专业领域的思维链。
张小珺:Agent OS是一个对内而不是对外的事?
李想:我觉得先做对内的。
06 要顺着人性去说,逆着人性去做
张小珺:我们刚刚在聊VLA。这是不是意味着端到端才出来一年,你们就要换架构了?是不是太快了?
李想:也没有放弃,端到端是VLA的一部分。如果你把端到端想象成一个个具身智能执行的环节,它就是我们VLA的A(行动)这一部分。
A的部分仍然在用这些数据做训练,只是我还需要语言部分,以及更强的3D Vision(3D视觉)和高清2D Vision(2D视觉)部分。
张小珺:有可能一步直达VLA吗?去年如果不推出端到端加VLM,直接推VLA,可以吗?
李想:至少从我们自己的体验上是没有可能的。我说一句不太好听的话:你没办法直接吃第10个包子。虽然大家觉得第10个包子吃饱了,但前面每个包子都跳不过去。
很多时候,如果大家不想做前面包子的积累,只想吃第10个包子,很像练《葵花宝典》。
今天包括DeepSeek的出现,并不是练《葵花宝典》练出来的。它很早就构建了集群能力,做链路和基建优化,这些是非常重要的,才有了低成本和高效率。
我们特别喜欢讲,“有一个人很聪明,直接吃到第10个包子”。但现实中,至少今天这个社会,整个知识文明的发展越来越好,并不是胆子大就能成事,我看不到什么捷径。今天很多企业在做端到端都很吃力,因为在规则算法阶段就没做好。
张小珺:但是大家觉得李想才是吃第10个包子的人,你们做辅助驾驶比别人要晚。
李想:但我们自研时间并不短。我们从2021年开始自研,研究做得很扎实。
我们是用户导向的公司,我们认为技术是一种能力,更多讲的是用户价值。大家讲我们是冰箱、彩电、大沙发,但冰箱、彩电、大沙发的智能化背后的基础,今天大家看仍然是非常强的,体验完全不一样。
张小珺:背后的基础是?
李想:大型软件的能力。
我们后边很多能力还是很扎实。为什么今天大家做端到端和VLM很难?是因为Orin芯片并不支持直接跑语言模型。我们是自己的编译团队,所以特别理解DeepSeek,一看就看明白了。
它做FP8优化,能跑它的整个训练架构。我们做相同的事,就是直接写了OrinX底层。因为英伟达没时间,我们自己写的底层,让它用INT4的方式来跑VLM。
这跟DeepSeek做FP8训练是一个道理。包括今天,我们为什么能做到双OrinX跟ThorU都能跑VLA?这对很多团队是非常大挑战。因为我们自己有非常强的能力,我们有编译团队,有芯片能力,有操作系统能力,所以能让两个OrinX同样跑同等规模的VLA模型。
你规模小的时候无所谓,但规模大的时候,基本功和能力永远无法逾越。
张小珺:你说做人类的最佳实践往往是反人性的,你为了追求最佳实践,做过最反人性的事是什么?
李想:我们做的最大反人性的事情是,每次遇到问题都愿意做巨大变化。这个变化包含能力的变化、业务的变化和组织的变化,这是我创业一路走来,做的最坚决的。
当你业务需要变化的时候,能力必须发生变化;当你业务和能力发生变化了,你的组织架构也必须发生变化——这三个变化,我永远每一次遇到问题的时候,都是三个同步在变化。
但我也会换一种方式,我不能用反人性的方式去说服团队,我得顺人性的方式说服团队。
就是:我们做的不是改变,我们做的是成长。
实际这也是个事实。这就是第5个、第6个包子必须得吃,不要指望吃第10个包子。我们的变化是,要去找到吃第7个、第8个包子的方式。所以我们要发生变化。
张小珺:为什么说服团队,不能直接说我们要变化,必须要说我们要成长。
李想:没有人喜欢改变。
改变是逆人性的,成长是顺人性的——但是最大的成长其实也是改变。
所以,顺着人性去说,逆着人性去做。
张小珺:当要改变的时候,你自己会主动逆人性吗?
李想:我需要一个东西说服自己,就是成长。
张小珺:你也需要说服自己?
李想:我当然需要。没人愿意为了变而变——你要给我一个改变的理由。
如果改变理由是成长,那改变就是成长的一部分了。
07 黑盒、世界模型和定价逻辑
张小珺:什么样的Corner Case(边缘情况)是端到端 + VLM架构无法解决,而VLA可以解决?
李想:过去端到端有两个麻烦的问题:
第一个问题是它对复杂东西的理解。
比如,有一个复杂的修路,如果是规则算法可能撞上;如果是端到端可能停下来,它不知道该怎么干了;如果是VLA,能轻松解决,而且这些我不需要真实场景,甚至可以直接生成数据来训练。
因为它能够有理解能力,不只是看到一个景象就做出一个结果。规则算法遇到复杂路况、没见过的或规则之外的情况会出现事故。端到端可能停下来,但不知道怎么办。
最开始我们经常遇到修路状况,它在那犹豫,不知道怎么办。但VLA就能有效处理,而且不需要海量数据训练。哪怕最开始场景没办法处理,我保证3天内相关场景都能处理,因为可以用它生成数据来训练。
第二个很难的点是跟人沟通。就跟猴子一样,你影响不了它。
我们经常遇到的情况:一条路三条道,最右侧是公交车道,又是限行,但公交车道长久没有维护,印刷已经不清楚,它就会跑到那条车道。虽然可以通过调整回到中间车道,但过一阵又跑回去。
因为有了VLA才有Agent能跟VLA沟通,我可以跟Agent说:接下来这条路一直在中间行驶,直到导航到下一个位置。
如果跟导航错失了,端到端不知道怎么办,但VLA在小区里可以漫游。在一个开放空间可以先处理完,再跟导航汇合——它跟人类完全一样。它今天像一个刚从驾校学完的新手司机。
张小珺:要做好VLA需要哪些条件?
李想:第一,你要有非常好的语言模型。
第二,一家企业,如果你过去没有做基座模型,你的预训练、后训练、强化体系怎么构建?你背后的算力怎么来调用?你的世界模型仿真系统怎么使用?都是非常大的挑战。
我们今天已经做到什么呢?我们已经做到了每1万公里的验证成本,从最开始18万降到4000块钱,这4000块钱完全来自于算力了。但整个效果比原来在物理世界里去做仿真、做验证要强得多。
我很多时候遇到一个状况,它既有不同的车,还有其他交通参与物,还有特殊路况,但到真实的路上,你把这三个凑在一起难度非常大。而我们的世界模型把这问题都解决了。
张小珺:训练过程中,哪个数据获取难度是最大的?
李想:Vision(视觉)和 Action(行动)数据。
因为车,我们装满传感器可以收集物理世界的数据;还有人在车上开车,我们可以收集到 Action(行动)数据。这两个是最难的,而且也没有任何公司可以替代。
张小珺:其他车企也可以啊。
李想:但其他车企有没有建立整个基座模型的预训练能力?后训练能力?后续强化能力?因为强化还需要世界模型的能力,这是不一样的。
包括,我们怎么去解决很多问题:
第一个,如何提升能力刚才讲清楚了;
第二个,如何向人类安全对齐(Alignment),如果它像职业司机一样足够安全、足够舒适,我们本身就要建立强化学习的体系。
很多时候,一家公司如果模型能力不强,根本不知道怎么做对齐。因为模型能力强的时候,你才发现对齐的重要性,你才知道Ilya Sutskever(OpenAI联合创始人、SSI联合创始人)原来想得那么远。
因为模型能力越强,就意味着,它胡来的可能性越高。就像一个人能力越强,就需要他的职业性越强。公司规模越大,越需要职业性;公司小时候不需要职业性。一个人能力强的时候,他干好事能力也强,干坏事能力也强,所以需要职业性约束。
举个例子,我不可能雇一个职业赛车手每天给我开车,但我要雇一个职业司机。他除了开车能力不错,还要有非常强的职业性,保证舒适、安全、和人类开车的价值观能够对齐。
第三个,最大的挑战是,模型是一个黑盒子。怎么解决?
我们做了世界模型,VLA放在一个交通世界模型里。如果不跟你说,你看到的就跟真实世界一样。我们用重建加生成,借助我们的数据,构建了一个真实的交通物理世界,包含所有参与者、参与物、固定物体。
所以,无论是最开始的端到端,还是今天的VLA,都可以在模型里考试。它会模拟真实的交通参与、真实的城市,进行考试。它考什么呢?考A点到B点,考它的舒适性、交通合规性和安全性。
基于这样的模型和真实物理世界的仿真能力,我们还大幅降低了验证成本。
过去靠人类司机做一万公里的验证,每一万公里成本大概17万到18万人民币,算上车的各种费用。今年大概每一万公里只需要4000多块人民币。4000多块基本上是算力为主的成本,而且解决问题的效率大幅提升。
为什么呢?今天我们要解决一个问题,这个问题产生时,是我们自身车辆和多个交通参与物在不同位置、不同道路上出现的。如果靠人类去验证能不能解决问题,要把这些交通参与物凑到相同位置、相同速度,几乎不可能,所以只能模糊验证。
但今天有了世界模型,我们可以非常准确地验证。修正以后的模型是否解决了问题,可以100%还原一模一样的真实场景,在世界模型里进行验证。
张小珺:VLA和世界模型的关系是?
李想:VLA就像一个司机,世界模型就相当于是真实的交通世界。
世界模型可以想象成三个阶段:
第一阶段,用它来考试。
第二阶段,它能生成训练数据。本来这两个阶段应该调过来,先生成数据再考试;但我们是先做考试,后来又做RL数据的生成。
第三阶段,是未来真正的L4级别自动驾驶车辆的运营系统。因为我不可能写一个传统IT软件,来运营跑在路上的、车上没有人的自动驾驶的车。所以我认为,第三阶段,世界模型,也会变成真正的全自动驾驶运营系统——是这样的关系。
当然,我知道,在学术领域关于世界模型有两种不同解读方式:
我们是一派的解读方式:VLA更像一个人,一个人类司机模型;另外一方面,我构建一个交通的世界模型,人类在世界里跑。人类既在真实世界跑,也在世界模型这个仿真世界跑。
另一种解读,包括从你的访谈也听到,在机器人领域里会把Action(行动)结束后,往后做,通过Diffusion(扩散)预测未来几秒的世界环境和轨迹。这类世界模型是“下一步世界怎么运作”的预测。
这是两种不同解读方式。
我还是希望我们描述出来的东西,能尽可能接近人类世界。
比如,我们运行的时候,如果是一个世界模型,它最好就是个世界;如果是交通世界模型,它就是一个交通世界;如果是一个模型加Agent,它就相当于是一个人。
我们尽可能把人工智能与人类世界、与人类的理解、与人类的最佳实践对齐,这是我们认为一个产品公司必须去做的。
张小珺:我们在说司机Agent的时候,因为它涉及Action、会进入物理世界,怎么解决安全问题?
李想:我们从去年年底成立了超级对齐(Super Alignment)团队。
模型能力很强,但不遵守交通规则;或者模型能力很强,但经常加塞;还有一些行为会让人类坐在车上感觉不安全。至于是否碰撞,是模型能力的问题;而是否产生这些问题,是价值观的问题,是模型对齐要解决的。
这也是,我们在做强化训练的第一个环节,必须把人类的规则、习俗、驾驶习惯、对很多东西的判断,变成它训练的反馈。
我们有一个挺大规模的团队,100多人超级对齐团队。
或者用另一种方式理解:如果把超级对齐比作一个人——模型相当于这个人的专业能力;超级对齐相当于这个人的综合职业性;司机Agent背后的记忆能力,是如何和使用者建立信任。
我是否认可一个员工,同样看三个方面:专业能力、职业性、对别人理解和构建信任的能力——三个都很好,就是最卓越的员工。
张小珺:VLA是解决自动驾驶的终极架构吗?还会有下一代吗?
李想:我自己认为VLA能解决全自动驾驶,但VLA是否是效率最高的方式?是否有效率更高的架构出现?我打个问号。大概率还是会有。
VLA还是基于Transformer(转换器)架构,Transformer是不是效率最高的架构?后边还不不知道。
我觉得,它是能力最强的架构。它最接近人类,是有机会在开车上超过人类能力的一种方式。但它是不是效率最高的?打个问号,今天对算力要求还是很高。
张小珺:VLA跟最后可能形成的大统一模型的关系是什么?
李想:还是会有效率问题。我们虽然有模型,但从来不放弃工具,因为工具增加确定性和提高效率。
举个例子,团队很多时候太想用模型解决一切问题,就会出现一个现象:VLM在位置判断上很糟糕。两三个ETC还好,但京承高速这种十几个ETC,它很混乱,因为缺乏位置判断能力。我们团队太希望用模型去解决,就不停给VLM喂更多语料,其实解决不了问题,这是VLM架构的问题。
我跟团队说,为什么不能用规则算法解决ETC?最多15个口,写一个程序一周甚至三天就能完成。
很多时候我们有个心结:人类很多时候是模型运行,但我们也会背乘法口诀——乘法口诀就是规则算法,但是我们消耗脑力少、消耗Token少、准确性高,所以它是个好工具。
如果是确定性解决的,可以用规则解决,就意味着更低能量消耗、更低算力消耗、更高准确性。为什么不用?团队很快解决问题,我们的ETC就很稳了,一周都不到解决了,过去三四个月成本高的方式都解决不了。
所以,真正落地的时候,很多时候还是要考虑效率。
DeepSeek受到全世界瞩目,很重要一个原因就是它效率更高了。
张小珺:在你眼中,Agent应该怎么定价?
李想:应该是雇用人类费用的几分之一。我雇一个司机一个月1万块钱,我是否愿意用2000到3000元雇佣一个Agent司机?这是一个重要判断。
当然,它还可能带来其他商业模式变化,比如花2000-3000元雇佣一个司机,可能车的保险费也包含在内,充电费用也可能算进去(它会自己充电),最终算下来更划算。
张小珺:你说陆奇博士给你最大的启发是,让你知道训练模型要类比思考:人类是怎么工作的。陆奇博士最近有给你新的input(输入)吗?
李想:2023年9月,在我们战略会上,陆奇问了个问题:人类是怎么工作的?人类是怎么学习开车的?人类没有那么辛苦。你们就应该去研究什么样的能力才能像人一样开车,像人类一样泛化,而不是靠规则算法。
我们前几天又交流了一次。
他更强化的一点是:在人工智能上,研究等于能力,而不是研发等于能力——这是他最新的重要观点。
第三章
调用MoE之战略专家
08 2025年雁栖湖战略会
张小珺:刚才调用你的是CEO大模型的“技术专家”,接下来调用一下“战略专家”。前段时间你们刚开完2025年雁栖湖战略会,达成了哪些新共识?
李想:战略上的一个核心共识,还是继续延续去年秋季战略会的一些判断,但我们延伸出来一些关键想象——如果往后看3年、6年,大家可以去思考和探索哪些关键点?
如果看战略,中间的圈是规模,这个圈外边有三个变量。当规模发生变化以后,这三个变量也会发生变化——一个是用户需求,一个是技术产品,一个是组织能力。
去年有1450亿收入,今年会有一千大几亿收入,我们如何往后走?这些对于规模的限制在哪?我们想获得更大规模的时候,哪些东西是限制?
从用户需求角度,我们会面临什么样的限制?我们今天主力车型都是SUV,我们可不可以靠卖SUV,卖到3000亿、5000亿甚至更高收入?这是一个很大挑战。因为像路虎这样的并没有做到。
也包含我们的用户群,去年是50万辆,今年要多一些,如果要做到100万辆以上,我们的用户群规模就意味着跟BBA是一样大的规模,那意味着用户群要扩大好多倍。这些用户群的沟通,是不一样的。
会产生两个很重要的问题:
第一,要往更大的规模走,需要覆盖哪些过去没有覆盖的用户群,对他们应该怎么去沟通? 第二,从产品角度,家庭定位是个非常好的定位,但如果只做家庭定位SUV,包含面向全球,是不是有问题?
我们做了分析说,有必要在面向全球、面向更大范围群体的时候,我们应该去做轿车。但我们做的是好的家庭轿车,不是运动轿车。
另外,作为家庭用户,我们在空间更有优势,那应该做再丰富一些的MPV产品。这种大空间的家庭轿车产品,要面向更广泛的用户群,以及全球。也不是出很多车,而是有效控制SKU。这是用户需求可能会发生的变化。
另外从技术角度发生的变化,我们可以看3年到6年的距离。
当车实现了全自动驾驶以后,车会是人工智能时代营业收入最高的一个终端,可能做到千亿美金收入——如果做到千亿美金,甚至会超过中国所有手机厂商的收入。
为什么它是个人工智能时代的终端?和PC、移动互联网时代的终端差异是什么?
它具备四个特点:
有360度对物理世界感知的能力; 有认知决策的能力; 有Action的能力,可以操作一个终端上的软件,也可以直接操作一个机器人; 有自己的反思反馈能力,就像人一样。
——具备这四个特点的,就是AGI时代的终端。
汽车会从智能终端变成人工智能终端。这是我们要做的。
我们还要想想:在我们的生活范围里——在家里、在工作中、在我们身上——是否会出现新的、符合这四个特点的AGI时代终端?那也可能会形成未来的机会。
因为苹果并不是只卖Mac。苹果发展到一定阶段,也做了iPod、iPhone,非常成功。微软也不是只做操作系统,也做了Office、语音服务。小米也做了IoT和汽车。
当你到了5000亿以上规模,你必须考虑这样的事情。因为你的用户群变大,用户需求也更完善,我们能不能满足用户工作生活中那些最主要的场景,推出最有竞争力的AGI终端产品?
这是技术产品角度,我们要看6年的事情,一直看到2030年有哪些可能性。
第三个,是组织能力方面。我们想做到3000亿、7000亿收入,这时候能力需要哪些提升?你小的时候可以招个人就带来能力,但变成千亿规模的时候,很多能力怎么选择就很关键。
我们在小的时候没看懂苹果;而现在再认真研究苹果,会发现苹果还有很多能力值得学习。
今天去看苹果,当你做到千亿收入,再去看这种万亿收入公司的能力,开始模模糊糊能看懂一些了。我们很小规模的时候,看不懂苹果为什么这么做。
最后还是,规模是一个可以确定衡量的变化,它会带来用户规模和用户需求的变化,对技术和产品的变化,也会带来组织和能力的变化。
张小珺:学习苹果会给你们带来什么直接的改变吗?
李想:在组织和能力上,我们一直在学习。因为组织能力挺难自己发明,除非我们大到了一定程度,没的可学了。
我们最开始,先是学的丰田工作法,学习GM研发流程的方式,也学习谷歌OKR,把不同的业务团队对齐的方式。
这个帮我们很好地完成了第一个阶段——理想ONE的研发和交付,并且理想ONE也帮我们创造了超过100亿美金收入,卖了20多万辆。
第二个阶段很重要的一点,我们在想:从一个百亿收入,怎么往千亿收入走?
我们当时研究过苹果,但觉得人才密度不够,甚至没看懂苹果,所以转而向华为学习。
当时有很多华为的书,华为非常愿意把这些能力写成书分享出来。我们第二阶段向华为学习了组织能力——包括IPD,财务、流程、人力资源的三支柱。这对我们帮助很大。
这些能力配合着理想L系列的平台化研发能力,以及更大规模的销售团队管理能力,销售团队背后还有三支柱的赋能和约束——我们就快速地在新势力里,借助L系列的产品,做到超过1000亿收入。这是我们的第二个阶段。
我们做到1000多亿收入以后,也知道靠这个能力还能做到2000亿、3000亿,但3000亿以上怎么办?
张小珺:这是几年后的事情?
李想:3年之内的事情吧。
如果再往上,看1000亿美金,甚至1万亿人民币的收入,还有哪些公司的能力值得学习?他们是否经历过和我们相同的阶段?
这时候我们就发现,苹果又是个更好的榜样了。
张小珺:为什么是学苹果?——它也不是一家AI公司。
李想:最重要的是学能力。
苹果最开始也不是个手机公司,苹果也不是一个MP3播放器公司,苹果就是个电脑公司。它能从一个电脑公司,变成一个音乐播放器公司,到后边变成一个手机公司,再变成一个软件的服务生态公司,它也在不停地变化。
张小珺:今天的理想是谁?
李想:如果看到2030年,我们希望能够成为全球领先的人工智能终端企业。
张小珺:现在加了“终端”,这是一个变化(相比2024年底的访谈说,理想要成为一家人工智能公司)。
李想:它不是个变化,是因为过去没做这个选择,但今天这个选择很清楚了。
张小珺:这是今年的选择吗?
李想:去年底、今年年初开始来做的选择,也是相互碰撞出来的——因为我们知道我们希望成为谁,但更重要的要回答我们是谁。
我跟团队讲,1975年出现了Apple II,后边又出现了Mac。这是苹果这家公司,它在做终端,做的是软硬件结合。
同一时期也会出现微软,它先做了DOS,后来又出现了Windows,做的实际是操作系统和软件生态。这是两种完全不同的取向,没有什么对错之分。
但在那个阶段,很显然,微软赢了。苹果遇到了很多挑战,但苹果至少活了下来,因为它有自己独特价值。
2007年,同样,出现了iPhone,这是苹果做的。苹果又选择了做终端,只是这次除了软件和硬件以外,还加了整个服务的结合。苹果的服务做得非常之好,服务利润收入也占比非常之高。它变成三个能力的结合,但它的定义还是终端。
这时,紧接着就出现了安卓,当然不是微软,而是谷歌的角色了。
安卓又做了手机操作系统,还做了整个服务生态——操作系统是开源的,但服务属于它自己——无论是Google的Map,还是Gmail,还是Google商店,这个模仿App Store的体系。
如果拿整个移动互联网时代看,苹果和谷歌基本不相上下,因为这是全世界唯二每年净利润接近1000亿美金的公司。这非常成功,他们仍然做了两个完全不同的选择。
回到我们今天在人工智能时代,也一样。今天我们能看到很多问题是,因为没有Action,你需要Action的时候就需要终端。你不能只“知”不“行”,得“知行合一”,那才是更大价值。
同样会有企业像OpenAI这样——它会做模型,甚至也会做模型的Agent OS,它会做这样一个生态,开放API。但也需要有这个时代的终端公司。
当然我们为什么先切入自动驾驶?因为自动驾驶足够大,汽车是个足够大的市场。
只不过,我们可能不会限于这一个终端——当这个终端做成以后,我们的能力能不能覆盖到用户,让他生活、工作得更好,是属于AGI时代的终端。我们不会再做上个时代的终端。
但是我们一旦要进入到任何一个终端,它必须得符合我刚才说的四个特点:
有物理世界的360度感知能力;
有认知决策能力;
有真正的Action执行能力——无论是控制机器还是执行软件;
有真正的反思和反馈能力。
软件部分,有三个变化:
第一,我要有非常好的模型能力,尤其是我要对物理世界理解。我不仅要能看清道路上的车、理解修路和胡同小巷,还得能看懂导航地图,能看懂所有软件。
第二,我要有非常好的操作系统能力。人工智能时代的端要是实时的。它不能像安卓那样是一个任务排列,也不能像传统Autosar是一个链式的。
你得有效利用计算上的NPU(神经网络处理器)、MCU(微控制单元)这些内核,确保实时性和准确执行,所以操作系统性能要求很高,要能在物理世界和数据世界中运行。
包括我能不能做出更高性能的虚拟机?如果用户的本地电脑工具不够用,我们能不能提供更强的虚拟机?这也是操作系统的能力。
第三,要做好各种各样的工具——是符合我们需求的高效工具,让Agent能调用。这三个软件能力缺一不可。
从硬件的能力上,我能看到三个变化:
第一个变化,是本体发生变化。
我们要把车控制得更好,就要自研整个线控系统。后面在本体方面的需求,计算单元之间的关系和部署。比如,对于车,并不是一定要有一个中央大脑。因为任何一个端到中央大脑的距离很远,我可以不可以采用“一个中央大脑+几个分脑”?
这样用最少的线束、最好的传输效率,实现既有集中计算又有分布式计算,而不是一个大脑在工作。这些硬件本体的设计会发生变化。
第二个变化,是NPU(Neural Processing Unit,神经网络处理单元)。
大家现在太关注于云端的训练和推理了。云端训练推理,大家可以通过架更多的来实现,通过改这个结构。那在终端上,如果我只能放3B模型,跑10Hz。但有一个人过来能放30B模型跑10Hz,这就10倍的性能差距,所以我这方面要求更高。
当大脑变得很强,NPU像心脏,心脏也要变得更强。这没什么捷径,你后边的要求越来越高,甚至今天很多架构都已经不太实用了。
第三个变化,是制造环节的变化。
整个工厂为什么不能变成一个机器人?小时候我们看过《变形金刚》动画片,有的机器人像擎天柱、威震天,能变形;还有的像宇宙大帝,本身是一个星球,整个身体就是机器人。我们能不能用AGI来生产AGI的终端?
今天,工厂也面临这样的机会。很多人想的是,造一个人形机器人进工厂替代人,但我认为有两个问题:
工厂里人的成本占比并没有大家想象的那么高,替代起来并不划算;
这些就业岗位长期来看还是必要的。
我们真正该关注,如何通过AGI把工厂变成一个机器人,去简化工厂里繁琐复杂的环节,从而提升生产效率——而不是单纯替代人。我们应该关注生产效率的提升,而不是关注人的替代。只关注替代人,我认为是狭隘的。
除了软件上、硬件上,服务也会发生变化:
很重要的一点,我们并没有办法写一套传统的IT软件,包括靠人去接管这些AGI、去管理这些Agent。这是一个非常大的挑战。
所以,包括英伟达去做Cosmos在内的东西,包括我们来构建交通的世界模型,包括我们去做Agent OS,核心是在于运营。
一方面,我们怎么运营这些跑在物理世界的AGI机器人,无论是车还是其他形态的机器人。还有一个很重要的方面,我们都在讲,一个人要和几个Agent一起工作,或者一个人带领几个机器人一起工作。但到底怎么工作?它是Agent OS的形式,还是其他形式?这也是必须要去解决的。
你既要解决AGI运营本身的问题,也要解决AGI和人的连接的问题——这是服务。
今天这个命题对于所有的企业都一样。
至少我们看到,这是我们未来的3-6年要去解的题:
怎么解决一个AGI终端软件层面的三个问题?
怎么解决硬件层面的三个问题?
怎么解决AGI运营以及AGI和人连接的运营服务问题?
它们都是接下来的挑战。
09 李想的理想会不会太过于理想?
张小珺:我感觉你要做的事情好多。
李想:也没有好多——如果这些问题不解决,就会是今天这种现象:
大家都觉得AI很厉害,但每天工作时间变得更长,不靠谱的信息变得更多,陪家人时间变得更少。
张小珺:我知道你们内部把机器人划分成“穿戴机器人”、“空间机器人”和“家庭机器人”。你们对于机器人的节奏和规划是什么样的?
李想:并不可能直接上来给出节奏,还是要根据行业进展,做相应的研究和分析,以及哪些能力要自己去解决。
很多人说,眼镜会是未来的一个我们穿戴的终端,或者穿戴的机器人。但今天它不是。
这里边还有很多问题。它确实具备世界360度感知,但今天的显示是不行的。无论是光波导的显示还是几种显示,并不能变成一个真正长期使用的方式。包括电池的电量、独立的计算、通讯,这些问题都是要解决的。
我们相信有一天,它可能会是多种路线里边其中一个,可能会成为人类穿戴AGI终端的一条路径。但今天还不是,有很多问题等着大家解决。也可能在解决的路上,又有另外一个路径出来,跑在了前面,都有可能。但我们要去做这方面的研究。
在家也是一样。到底是一个人形机器人去服务所有的,还是最后我在家里应该有一个更好的感知和一个更好的大脑?可以是一个人形机器人,在厨房里拿着人类的铲子、锅,然后去工作;也可能我只需要有一个改造的锅,它就直接能做菜了,整个家里有一个统一的大脑和统一的感知。
这两种路线都有可能,每一条路线都有自己的信徒,这些东西接下来可能都会发生。
张小珺:什么样的终端是理想会做的,什么样的终端是理想不会做的?
李想:这件事的判断只跟我们的规模相关——我们规模小的时候,就尽可能收敛;规模大的时候,我们必须去扩张。
如果谷歌不做成功操作系统,只做搜索引擎,它就不是今天的谷歌;
如果微软不去做Office,不去做云服务,它就不是今天的微软,可能会和众多被淘汰的企业一样,只是时间长河的一个过客;
如果苹果只是坚持做Mac,不做iPad,不做iPhone,它可能就是另外一个企业,和其他曾经出现过又消失的电脑企业一样。
张小珺:你说理想是“人工智能的终端公司”,但大家对于理想的业绩兑现还是看车的销量,你觉得这合理吗?什么时候车的销量能够跟你投入做人工智能挂钩?
李想:我们的能力和给用户带来的价值还没表现出来;如果相反给了我们这方面的估值,我们反而心里慌。
两个方面可以来看:
一方面,我们能不能率先做出来L4?
大家上下班不是坐在方向盘前面,而是坐在桌子前面,吃着东西,看着电脑,去公司。这一刻,我们能不能加速它的到来?
另一方面,从工作效率上,有车企接近100万人,做到了7000多亿人民币收入,做到千亿美金的规模。当人工智能出现以后,我们能不能用10万人以内,甚至5万人规模,做到1000亿美金的收入?
如果这些做到,就证明我们的人工智能战略真正发挥价值。如果没有做到,那就应该给我们一个车企的估值。
这很正常——因为光说没做,或者做了没做到。
张小珺:你们现在又做操作系统,又做芯片、基座大模型,还在终端上做了车、眼镜、机器人,摊子会不会铺得太开了?
李想:没有,如果看苹果,苹果是2001年推出iPod,在2000年已经有苹果电脑、操作系统和软件生态。但那时苹果的收入只有几十亿美金。
如果对比苹果那个时代,我们的规模已经可以做这些事情,是合理的。我觉得问题并不大,是合适的时间。
如果我们只有200-300亿收入,做这些事情是不合理的。但如果我们有1000多亿收入,并向2000亿迈进,做这些事情就是合理的——它既能增强我们的能力,又能降低成本。
它不是带来坏处的。我们做了操作系统以后,虽然这些年投入10个亿,但它节省的钱可不是10个亿,可能有50-60亿。
太划算了,干嘛不做?(笑)
张小珺:上次我问你,理想有理想吗?这次想问你,你对理想的设想会不会太过于理想?
李想:我觉得我们会看得远一点,但我们当下还都是挺脚踏实地的。我始终坚信基本功是最重要的——尤其是到了人工智能时代,到了这个规模。
因为人工智能时代的差异就是:编程时代对比的是功能,人工智能时代对比的是能力,是把能力怎么变成业务,然后变成用户价值。
这些能力没什么捷径,想要跳过能力直接实现一个成果,在人工智能时代真的像练《葵花宝典》。我们希望是一个练基本功的人。
张小珺:理想会因为什么消失?
李想:刚才我说的那三个点都会消失:
我们没有把握住用户的需求,我们会消失;
我们没有掌握最好的产品和技术,我们会消失;
我们的组织能力方面出现了巨大的问题,我们也会消失。
这三个是个非常好的诊断。单独看一个,容易看得不够全面。把这三个放在一起来看,相互支撑,整个系统诊断能力会变得更强。
10 构建3-7人能量体
张小珺:在战略会上,现在还有人跟你争执,对你提出反对意见吗?
李想:无论战略会上还是现实工作中,是始终有反对意见的。比如有些东西我停掉了,最后他们自己私下做,做出来一些验证,坚持要做下去,我最后还是要认同他们。
这些所有的讨论、争执、吵架,背后有一个更重要的一点——是能量。
当人和人之间的能量始终存在的时候,这些争执、讨论、吵架就是一个更完善的大脑。
当这些能量消失的时候,这些争执、讨论、不同想法就会变成内耗。
我觉得,到了今天这个规模,到了今天这个比较混乱的时代,能量是特别重要的——这也是我在研究的。
我过去是能量的受益者。
每到关键时刻,遇到困难、变化,我们的能量会变得更强。后来我去复盘,我过去怎么构建能量?我怎么把这种能量构建方式让我们的核心团队掌握?
很重要的一点,汽车之家为什么能变成第一?我们也遇到非常多困难,困难并不比别人少——上市受阻,发展初期我差点被赶出公司——但每次遇到问题,我们都会变得更强。很重要的一点,我们有三个人的心力支撑:我、秦致、樊铮。我们三个人是非常有效的支撑。
我经常说,一个很重要的支撑是由三个人起,合伙制、合伙机制通常是三个人起。很少见两个人董事会,但三个人董事会是有的。
三个人的支撑是什么呢?三个人不内卷,一致对外。但三个人会通过吵架、思考,形成一个更全面、更强大的大脑,或者一个MoE架构。
这个强大大脑讨论出来的任何问题、做的任何判断,虽然过程比一个人思考复杂,但一旦形成,三个人会形成一个更强烈的心脏。
当我们去决定做事情,三个人相互支撑。你永远不用担心倒下——你缺资源,其他人给你补;你缺能量,其他人给你能量。如何构建一个更强大大脑和心脏,变得非常重要。
到了理想汽车也一样。前期有我、沈亚楠、马东辉、李铁。后来沈亚楠离开了,他的工作需要马东辉支撑上去。但很重要的一点,我和李铁必须变成马东辉的心力支撑。你去做,出了任何问题,你绝对不会倒在地上,我们帮你撑着。遇到问题,我们一个大脑一起来想。
包括后来谢炎加入,邹良军加入,形成五个人的更强大脑。它一定比我李想一个人的大脑更强。
虽然一个人大脑可以随心所欲,但一个更强的大脑是更强的能力。这个更强大脑做了很多判断,虽然不容易,但一旦做出,更有信心。
张小珺:怎么样的能量最稳固?
李想:是几个能力差不多的人(形成)。
我过去自己做得很好,但如何把这个能力、方法有效传给团队,是2025年对我而言非常重要的任务。
张小珺:理想现在有5个群组,为什么你自己管理的人是最少的,只有500人?
李想:我并不拒绝公司有合适的规模——业务规模、人员规模——它是自然而然形成的。
我管理的团队比较像Tim Cook管理的CEO办公室。我管理的团队都是做整个公司横向拉通的——无论是产品部在构建平台能力,还是营销链条的完整拉通,再到战略。我做的都是横向团队。
另外几个合伙人在管理大规模专业组织方面比我更有优势。老马管研发团队和供应链团队,谢炎在管这种像操作系统、像云服务、像芯片、像基座模型这些底层扎实的基础能力的……他们肯定都比我更擅长。我就做我擅长的事情就可以了。
张小珺:多少人形成的这种能量场的连接,最稳固?
李想:一般3-7人。少于3人太少,2个不太容易,多于7人就太多了。
我们今天设计很多结构,会有意设计一个3-7人组合的脑力和心力支撑结构。
张小珺:这是可量化的还是你的直观感觉?
李想:是我的直观感觉。这也符合人工智能时代的方式——更多的小组织形成能量、脑力和心力的支撑,但仍然可以连接更多组织,不受任何影响。
张小珺:人和人连接的本质是什么?
李想:两个在意:
在意用户,在意用户是最重要的价值观共识; 在意你身边这几个人,要先对人再做事,而不是对事不对人。
张小珺:你刚说人不想改变,但人愿意去成长,你最近做的一个成长和改变是什么?
李想:我最大的成长是如何通过合伙合作的方式,构建脑力和心力组织方式,让更多团队使用。这是我最大的成长变化。
11 高维组织兼容低维组织
张小珺:我听说你现在花8/10甚至9/10的时间在AI上,你对车的关注还多吗?
李想:这是误解。拿一天分配来说,我大概60%的时间在组织和人上。包含研究人工智能组织应该怎么管理,我要面试不同的人,包括干部、新员工、校招的沟通培训。这些占了我50%-60%工作。
另外的工作,一半在车的业务上,一半在人工智能的业务上。
张小珺:向人工智能企业的组织转型,现在进展怎么样了?有遇到什么阻力吗?特别是当有两种企业文化,一边是汽车、制造业的文化,一边是AI的文化,两边怎么调和?
李想:这个我比较有心得——高维的信息管理方式是兼容低维的。
我们数字化能力很强,就可以把传统汽车流程放入数字化体系,解决数字化工作协作和改善的问题,销售管理也可以放在数字化体系里管理。所以,一些传统组织方式仍存在,但高维组织方式可以兼容它。
我们做汽车业务,并没有因为管理工厂而难住,相反,管理效率高、质量也好;也没有因为管理销售而难住,销售效率和成本管理都变得更好。核心是我们具备管理更复杂大型软件团队的能力,并理解这种体系。
到人工智能时代也一样。人工智能有自身的管理方式,但优秀的人工智能管理方式能兼容传统流程,比如IPD(集成产品开发)流程。这是我们在往前探索过程中看到的非常大的好处。
张小珺:DeepSeek的组织是一群很年轻的人,他们有更少的职级,分工没那么精细,跟你们这样的组织形式完全不一样。你们需要像他们这种组织去靠近吗?
李想:不需要这么纠结。比如,我们管工厂是一种组织方式,做操作系统是另外一种管理方式,研发车一种方式,做辅助驾驶又是另一种方式。
我们真正做端到端的团队只有200人,虽然公司内部有700-800人,包括搞研究和做数据的,但真正做端到端只有200人,跟特斯拉规模差不多。但你知道,我们的竞争对手做规则算法的团队有2000、3000、4000,甚至5000、6000人。但从最终产品体验看,我们200人做的端到端体验至少今天来看更好。
做模型的团队也要做VL(视觉-语言)训练和多模态训练,但团队规模也是100多人。和DeepSeek差不多。DeepSeek在语言上做得更深,而我们做得相对更宽一点。我们的辅助驾驶团队和模型团队,校招占比极高,有60-70%是校招。
当时我和梁文锋聊完,印象特别深的两点:
怎么去搞研究?他认为年轻人做研究更合适,因为经验反而可能成为障碍。我们大胆用校招,很少招行业大拿。
张小珺:这是梁文锋给你的input(输入)?
李想:我们是这么做的,但别人会质疑我们没有大拿,我们坚持这么做。我们辅助驾驶团队没有大拿,模型团队也没有什么大拿。但可能中国没有任何(汽车)公司比我们的团队,被猎头盯得更紧。
另一方面,对我们也是个重要的启发。当时我和谢炎一起见了他,我说如果做强化,怎么做有效反馈?
当时他提了一个非常有意思的点:他说,中国教辅材料是一个具备反馈的非常好的做强化的体系。后来发现这事是对的。
中国的教辅有完整的讲解题过程,连公务员的考试都有。这是个非常好的思路。我们自己在做很多训练的时候,也就这么想了。其实交通规则是,人类判决的舒适度是,人类的接管是,都是让强化有了一个非常有效的训练体系。这对我们有非常好的启发。
张小珺:他还有给你过什么input没有?你当时有预感到DeepSeek会很强吗?
李想:我觉得他很强,但没想到他那么强。因为当时跟他聊的时候,他认为和OpenAI的差距还有得有1年时间。(笑)
张小珺:他们那时候还没有做R1。
李想:对。从o1到R1推出,这个距离是2024年9月到2025年1月,大概就一个季度。这非常之厉害。
张小珺:在你看来,OpenAI领先优势能持续多久?
李想:不好说。OpenAI是个综合能力很强的公司,它的研究很强,研发很强,产品很强,沟通能力也很强。
你看这一波,生图的方式,又借助带有情感的动画漫画方式,实现了爆火。我有1/10的朋友微信头像都用了吉卜力风格。(访谈时还没有推出Sora 2)
张小珺:By the way,梁文锋一开始就觉得应该让年轻人做研究,他有说原因吗?
李想:我始终认为他就是个最佳实践,只是他把这个最佳实践在组织里放大。
张小珺:他是一个什么样的最佳实践?他这个最佳实践跟你的最佳实践有哪些不同?
李想:做任何事情先搞分析,再做,成功率就很高。他是一个成功率很高的最佳实践。无论是大家说他当年炒股票还是做量化。只是他把这个最佳实践在组织里内化了。
张小珺:你是一个怎样的最佳实践?
李想:我是通过成长去来实现用户的价值——是这么一个循环。
成长是我的驱动力,变成用户价值、变成商业价值是一个结果——是个因果关系。
张小珺:你不像梁文锋那样是技术型CEO,你担心手下的AI高管忽悠你吗?
李想:如果是科学,他可能忽悠我;但如果是工程,他忽悠不了我。幸好AI不是科学, AI是工程。
张小珺:为什么工程忽悠不了你?
李想:我从小就有很好的工程思维。
你看我在设计网站架构的时候,当年设计的汽车之家架构是最先进的,这个架构成了所有垂直网站统一的架构,到今天都没变过。
我们设计增程架构,今天大家都没变过增程架构,只能做小的修修补补、局部变化,但那个架构至今都没变过。
我从小比较喜欢物理,只要是一个工程问题,他骗不了我。
工程能力很多时候是,你怎么去问结构性问题。我虽然不去做那件事,但我通过问一些更好的问题,他们可以变得效率更高。他们在内部推动各种事情,进展上也会变得更快。这是我能给团队带来的一些帮助。
张小珺:你觉得理想今天的人才密度够高吗?怎么和DeepSeek、字节抢人才?
李想:DeepSeek跟我们是不同的方式。但如果抢人才,我们的吸引力在变得越来越好。真正做AI的人都知道,场景、数据、持续的资金、这个公司到底是真相信还是只是嘴上说一说,这几个关键点背后到底意味着什么。
张小珺:作为一个“CEO大模型”,你最近通过思维链(CoT)自我推导最长的一个问题是什么?能不能展示一下你的思维链?
李想:战略是最重要的推理。
规模跟时间连在一起。往后看3年、6年的收入,基于这个收入我要去推理——用户的需求发生什么变化?技术发生什么变化?技术带来的产品发生什么变化?组织应该往哪里走?
这是我最近做的一个在自己脑子里完整的推理,但推理完了没有用,还要把它变成Action——有想法和能落地还是一个巨大的鸿沟。
张小珺:你们今天说理想是一个人工智能终端公司,似乎比去年底更具象化了。之前,有考虑过要成为平台型的AI企业吗?
李想:没有,并不清楚。
虽然在PC时代苹果输给了微软;在移动互联网时代,苹果和谷歌我认为打了个平手;但我觉得到了人工智能时代,尤其是在物理世界这个范围,可能会翻过来——至少在物理世界,终端企业的价值会战胜平台企业。
因为AI终端涉及生命安全、财产安全,是一个主体来解决还是分离多个主体去解决?是不一样的。
张小珺:你们能成为下一个时代的苹果吗?
李想:这是我们努力的方向。
成为AGI时代一个领先的终端企业,是我们核心成长目标。
第四章
记忆、亲密关系与人类智慧
12 我的记忆程序
张小珺:今年7月是理想创立10周年,站在今天回顾这10年走过的路,你脑海里浮现最深刻的画面是什么?
李想:第一个最重要的画面是,2018年理想ONE第一次发布,延续到2019年4月,上海车展第一次带有价格正式展示。那是一个非常重要的时刻。我们真的做出来一辆车,这个车特别受用户喜欢。在上海车展展馆,我们是人流量最大的一个展台。我们从一无所有开始的。
另一个是2022年发布L9,L9是卓越的产品。到2025年,还有至少5个以上企业因为当时L9的成功,在打造跟L9相同的产品。
张小珺:你脑海里浮现的是幸福的时候,而不是痛苦的时候。你会回忆到痛苦的时候吗?
李想:太多了,太多了。刚经历了L9的幸福,就出现了全网黑公关,说理想汽车倒闭,那一个季度我们亏了将近20亿——原来从没亏过那么多。
忽然从巅峰掉到谷底。
但好处是,我们认识到很多能力不足,补了很多能力。正是因为这件事,我们的调整又带来2023年获得接近3倍增长,直接做到1200亿收入。
反正我创业那么多年,很多时候当问题来的时候,也是更大机会的到来。我对这方面也没那么纠结。
我对于不正常的事情耐受力很差,但我对于一些不好的东西解决完以后,我的整个记忆能力也很差,会把它忘掉。但你让我回顾还是能回想起来的。
张小珺:你刻意删掉的记忆片段会是什么?
李想:我为了让自己有更好的正能量,还是尽可能只保留那些有价值、美好的片段。
哪怕一个不好的东西,比如我们被黑、被打击,我会转变成——“看,正是因为这件事我们增长了3倍,我们获取了其他新势力所没有的能力,我们面临其他新势力所没有的挑战”——这样的方式来表达。
创业不容易,但是没必要苦哈哈的。
苦和甜,是一个硬币的正反面,取决于你选择看哪一面。
张小珺:甜多还是苦多呢?
李想:如果按时间轴,肯定是苦更多,但吃苦多了也就习惯了。
张小珺:余凯博士(地平线创始人兼CEO)回忆跟你第一次见面是在杭州一起去爬山,你们是湖畔大学的同学,你那天穿了一个军大衣。我很好奇余凯博士见到的那个军大衣里包裹下的,是一个怎样的灵魂?跟今天发生了什么样的变化?
李想:我觉得没什么变化。我甚至认为我今天90%的状态、思维方式跟我上高中差不多。
遇到问题去解决问题,解决别人不愿意解决的问题、解决消费者遇到的最大问题、找更多的人学习。那时我是个人网站站长,我又有合伙人,是少数有小团队的站长。靠自己能力不行的时候还要靠别人,完善能力。到今天为止我没变化。
只是解决的问题在变大、服务的用户群在变大、公司规模在变大、组织在变大。
张小珺:过去10年中所有的记忆里,如果能改变一个记忆程序,你想改变什么?
李想:我真没什么要改变的。能赶上这么一个时代,几次创业还能一路走下来,最难的时候都有人来帮你,当你遇到问题总能从坑里快速爬出来,一帮人齐心协力变得更好——挺幸运的了。
从运气层面,从能够创造出价值的层面,没什么可后悔。
挺好的。
13 大女儿
张小珺:你刚才提到的一个词是“能量”,怎么让自己成为更有能量的人?或者能吸引到更多有能量的人?
李想:就是关注人,尤其关注那些离你最近的、关注亲密关系的人。
首先你得先关注自己。我会怎么来看待自己?
第一,我会接受自己的所有优点。我很多身上的特质、这么多年的积累、从DNA里带来的,就是我的优势。我应该怎么去发扬自己的优势?
第二,要能接受自己的不足,往往不足是优势的另外一面。有的人擅长决策,就没办法做很细致的运营,这两件事是冲突的;有的人擅长运营,就很难跳好几个维度去做决策;有的人很懒,但可能是极品的产品经理;但如果他很勤奋,应该是非常好的业务运营。
每个人是不一样的。我们要改的话,会变成一个更差的别人,以及一个更糟糕的自己。
第三,是用成长替代改变。更重要的是我有没有成长?
我们在做汽车之家的时候,我说做好业务就行了,资本不重要,最后我们折在了资本上。做理想汽车就非常注重资本——请最好的FA,请最好的律所,股权架构的设计,投票权,今天大家可以看到所有的新势力企业里,理想汽车的股权架构、治理结构、资本现金管理都是做得最好的。我并没有改变我的业务,是增强了一个能力,所以它是个成长。
我们会面临方方面面的能力成长,这时就能给自己带来能量。你的成长有自己的能量,你又不跟自己纠结。
当有这个能力的时候,我们看待别人也一样:
第一,我会先看别人的优点。这优点能带来什么?这优点怎么发挥?
第二,当看到别人不足,根本不是问题。我从创业开始就有合伙人。樊征就是我的互补,是我所不具备的,秦致是我所不具备的,李铁、马东辉、谢炎都是我所不具备的。
当看到大家这些不足,反而是我的价值。我有价值能帮助到他,他有价值能帮助到我。
第三,去看别人的成长。你能看到孩子的成长,能看到爱人的成长,能看到身边每个同事的成长,这就有能量。
张小珺:成长带来能量。
李想:变好就有能量。而且你关注的是人的成长,不是那些事。
第一,你能自己产生能量;第二,你能带给别人能量;第三,你能从别人那获取能量。
因为别人给你能量,别人也不会丢掉能量,是个辐射作用。
另一方面很重要的是亲密关系。亲密关系里特别重要的一点是关注人——我需要我的爱人,我需要我的孩子,我需要李铁、马东辉,我需要刘杰、解卫国、范皓宇,甚至超过了他们需要我。
首先是我需要他们,其次才是他们需要我。这时这些人之间的连接就不一样了。我们在一起就能形成一个非常强的脑力、非常强的心力,形成特别好的能量。这个特别重要。
而不是说,我对他们没有需求。没有需求会进入一个糟糕的模式里边——会无视对方;要么想着战胜对方,要么就是逃避对方;要么变成内卷、内斗。
没有。在我身边的人,无论是家里还是工作,没有内斗。而是,怎么让大家相互能带来能量。
张小珺:你最近看见的一个人是谁?
李想:在我的家非常有意思的一点,过去我和我老婆的相互支撑是有限的。从去年底春节过后一个最大的变化是,我们家大女儿形成了第三个支撑。
她14岁了,对事情的理解发生巨大变化。她自己的三观开始有效、完善地形成,超出我们的预期,而且她有能力跟我们做特别好的沟通。关于她的人生规划、喜好、对人和事物的理解。
我们家里实现了一个“三人支撑”,这让家里的能量大幅地提升。这些能量会影响到其他孩子,虽然他们还没有办法做成支撑。
我每次跟我老婆聊到大女儿都非常高兴,没想到她14岁就能和我们两个人形成一个三人的支撑了。
张小珺:形成了你描述的能量体的最少人数。
李想:对,我们能跟她一起去讨论很多问题。可以讨论事情,讨论人,讨论不同见解,讨论她的规划,讨论怎么出去玩,讨论家里要解决一些什么问题。都可以,我觉得这个特别好。
张小珺:有什么事情是你当爸爸之后才理解的?
李想:三个重要的点:
第一,我每个孩子都是完全不一样的,让我认识到很重要一点:怎么用好人——人是用来发挥的,人不是用来改变的。
你应该让他发挥特长。一个人是应该是放大和发挥他,而不是让他去改变。因为我连孩子都不能改变。
当你意识到这一点,组织就很重要。你要把不同特点的人、不同擅长的人,组合在一起,就是个更完整的大脑、更完整的心脏和更强的能量。有孩子以后会加强我这方面的认识。
虽然过去书上很多人讲这些,但我听不懂。有了孩子以后才能开始真正懂这些。
第二,很重要的点是意识到一个问题,我会这么做,但我从来没有意识到这背后的逻辑是:对于身边的亲密关系而言,我需要他们超过了他们需要我。
我需要孩子,孩子让我变得更好;我需要我爱人,我爱人让我变得更好;我需要这些群组负责人,我需要下边的一级部门负责人,是他们让我变得更好。他们对我的重要性甚至超过了我对他们的重要性,至少我是这么认为的。
在亲密关系里,你要大胆表达自己的需求,因为所有人都希望被需要,这会产生一个非常好的能量场。
第三,孩子是用来完善我的。看到他,你能看到自己更多的不足,你能看到更多不同的人。因为孩子对你是没有掩饰的,每个孩子都不一样,他能让你把人看得更全面、更透彻,也能让你更好去处理人和人之间的关系。
因为孩子你没得选,但你仍然要处理好,这对我们是更大的挑战。
张小珺:当有了“我需要你比你需要我更多”的意识,会带来什么行为的变化?
李想:你会更积极主动,不会等着很多事情变得糟糕再去做。
你会以关注人的角度去理解,比如当你关注孩子需求的时候,他就会更多去讨论自己的需求。当你关注孩子擅长的时候,他也会不断发扬自己的擅长。每个都是不一样的。
但这时候能量的主动权又在我们自己手里。别人能够带来能量,但能量的主动权在我手里,我们可以主动去做很多事情。
张小珺:构建家庭这个组织和构建公司这个组织有什么不一样?
李想:我认为同等重要。我们工作的同事对我们来讲是不是亲密关系?我说当然是了。
我们的工作体现出来社会价值。很现实也很合理的一点,你是一个好的公司管理岗位的人,你带孩子去最好的学校面试,你会优先被录取。
这个东西到底合理吗?合理。因为你在一个好的公司,在那岗位上创造了更好的社会价值,你服务了更多的群体,你提供了更好的产品和服务,他们使用以后变得更好。
工作是我们的社会价值,一个人不能脱离社会价值。当你有社会价值,你不知道;当你真正没有社会价值,你会发现社会价值是如此重要。
另一方面,家庭是亲情价值,亲情价值的终点是幸福。幸福就是高质量的陪伴。
这两个是不同的,但这两个又是相辅相成的。更好的工作才有更好的生活,更好的生活会产生更好的能量,也让大家去更好的工作,更好的去处理连接的关系,有能量把结果做得更好,做得更卓越。
这两个相辅相成,缺一不可。
张小珺:所以家庭的要义是幸福,组织的要义是价值。
李想:我觉得是。组织的要义应该是信任和价值吧。嗯,信任和价值。
张小珺:你最近5年有跟谁闹掰过吗?
李想:我的亲密关系基本没什么闹掰的。但如果一个人想变成我的亲密关系,这很难。我会有非常严格的筛选。并不会一个人刚见面拍着肩膀说,哎咱是好哥们儿、好兄弟。这对我很难。
我核心的一点是,它是给我带来亲情价值,还是给我带来社会价值,还是像我的兄弟哥们儿一样相互理解?——他到底是哪一个?
如果他不是这个,他就是正常社会中的一部分,他伤害不到我,我也不需要跟他闹掰。我对他没有什么价值索取。我对他没有需求。我也不需要给他贡献什么。他是人生中会出现但无关紧要的人。
不要构建那么多亲密关系。亲密关系太多了就证明这个人不会经营关系。
张小珺:亲密关系的上限是多少人?
李想:你的直系亲属是,从小到大几个朋友、哥们和闺蜜是,工作中跟你一起扛责任的人是。大概就这些。
其他关系也有,但并不是亲密关系。能给我们带来伤害的只有亲密关系。
它既能给我们带来伤害,也能给我们带来价值和能量。如果价值和能量处理不好就是伤害,伤害解决了又会变成价值和能量。
14 智慧只需要前进一点
张小珺:我之前跟一个教授聊天,他说他几年前跟你聊完,感觉你的心灵观就是家庭观。这也反映到公司上(要创造幸福的家)。他想问的是,你有没有更大的宇宙观、世界观?
李想:我核心的自我驱动力是掌控自己的命运,挑战成长的极限。
我成长的过程,是把我个人的驱动力,变成了一个个人网站的驱动力,变成了一个IT商业网站的驱动力,变成了一个全世界第一的汽车网站的驱动力,又变成了一家汽车以及人工智能汽车公司的驱动力。
这个驱动力非常有意思,为什么我们那么喜欢人工智能?人工智能本身的价值观跟这是一致的:人工智能的特点就是掌控自己的命运,挑战成长的极限。
这是我能看到的生命成长的意义。它具备相当普适性。
至于说是不是要拯救人类什么的,可能每个人观点不一样。
我们从出生开始,上学到大学毕业到开始工作,有多少自己想去做的事情没有去做?有多少想接触的万物没有去接触?但什么是智慧呢?——智慧就是我们跟万物的接触。
如果你没有去过森林,没有在森林里认真住过几天,你可能觉得木头就是做筷子的,就是做纸的,就是做桌子的。而并不是意识到它是一个生命,是跟我们不同的生命。
如果你不能跟孩子在一起长时间待着,而只是很随便交叉而过,没有跟孩子在一起长时间生活体验,跟他们一起去玩,你可能就不知道什么是亲密关系,就没法真正去理解孩子。
智慧就是我们和万物的关系。
怎么去提升我跟万物的关系?首先要有足够的时间跟万物接触。
一个很重要的问题就是,今天我们很卷,但这恰恰是真正的人工智能的意义。
举一个例子,我们的销售人员、我们的产品专家,非常喜欢跟客户接触。他们在把一个好的产品、一个好的生活方式介绍并交付到用户手里,他们做这事是有能量的,这些能量变成结果又有好的回报。
但有一些是必须得做,但价值并不大的——它不是增加能量,而是消耗能量。比如我们每天店面要去邀约客户,给我们留下联系方式,我们打电话邀约他来店面体验和试驾。每天要打很多个电话,这个过程很消耗。
我跟我们的智能商业、销服负责人讲,如果到今年结束,邀约电话还不能交给Agent解决,你们工作就是不合格的,人工智能就没有意义,讲什么都白搭。
如果把这些工作做了,每天节省他们20%-30%时间,减少大量能量消耗,他们就可以去做更有价值的事,他们时间的使用率变得更有效,他们做工作会变得更有能量。
张小珺:你觉得人工智能截止到今天,它是在服务于人类还是在服务于技术本身?
李想:它服务于谁取决于人类。今天人工智能并不能处理跟万物的关系,跟万物的关系还是人类在处理。那我觉得这是人类决定的。
人类希望人工智能服务于生产,它就能变成“生产工具”;人类希望它变成“辅助工具”,它就是“辅助工具”;人类希望它变成“信息工具”,它就是“信息工具”;人类希望它去作恶,它也能去作恶。
至少很长一段时间是人类决定的。人工智能能力已经变得越来越强,人类应该把自己的算力用于解决智慧,去处理跟万物的关系,去增加能量,去做熵减;然后让人工智能去处理复杂信息、数据,去提升能力,去压缩更多知识,去自动化做更多Action。
人类和人工智能是合作关系,不是矛盾关系。如果这个合作关系做好,人类仍然是文明的领导者,因为在工厂里边儿也不是人类去焊接,也不是人类去涂装,也是机器在焊装、涂装、冲压。
人工智能能力越强,这时需要人类智慧变得越强。好的智慧和好的能力就是协同关系。
张小珺:人能感受到幸福,AI能吗?
李想:当然不能了。至少Transformer这个架构,这个Token和Next Token的架构,并不具备自主意识。
张小珺:你不认为它会产生意识?
李想:我觉得没有产生自主意识,而且本身也不能进化,因为进化还是要通过做训练才能进化。
今天大模型的架构对人类是挺安全的。无论信息安全、财产安全、人身安全,都可以靠人类对齐去解决。如果突破了这个架构,可能人类又解决不了了。
但能不能突破这架构不知道,至少今天这个架构我认为人类还是安全的。很多人是多虑了。
张小珺:如果你可以做一个李想的硅基生命,你会想把它塑造成什么样?跟你是1: 1复刻还是你想改变什么?
李想:我希望它变得更聪明、更有能力。但我还是希望人类能够更有智慧。关于智慧在脑子里是怎么运行的,其实也不知道。为什么很多聪明的人一点都不智慧?
张小珺:我们今天解决的是智能的问题,没有解决智慧的问题。
李想:对。
张小珺:你从多少岁觉得自己开始拥有智慧了?
李想:2008年,我开始知道怎么处理和自己关系的时候。我特别注重处理跟自己的关系。就那次我要被赶出公司之后,我开始初步掌握一点智慧了。
张小珺:这几年的智慧升级是什么时候?
李想:还是要训练你去管更大规模的团队,要去面对比你原来见的水平更高的人,这需要你的智慧跟着提升。
张小珺:你怎么看待整个人类内部的纷争,包括贸易战、地缘冲突?
李想:由于人类智慧不怎么成长。今天在发生的事情,1930年也在发生。
我在想一个问题:智慧能不能变成一种有效的教育和训练的方式?这可能是人类解决自身问题接下来必须得去解决的问题。
张小珺:在你培养孩子的过程中,你怎么让他/她拥有智慧?
李想:比较小的话我会启发他们,我不会告诉他们怎么做,会让他们思考跟自己的关系——你自己喜欢什么?你擅长什么?什么是对你好的?
我们很多时候在做潜移默化的训练,但太随机了。某种程度而言,孩子0-12岁,是通过父母来认知自己;13-24岁,上初中、高中、大学到大学毕业,是通过同学和老师来认知自己;24岁以后,又不断通过社会来认知自己。
认知自己可以是随机的,那就是个命。有没有一种可能性也是可以训练的?让你变成一个更好的自己,也让你更好地和别人相处?这些有没有可能成为我们教育的一个学科?
很多时候我跟校招团队做沟通,希望的不是灌输,而是交流。就像希腊三杰靠对话,来产生智慧和哲学。
张小珺:提升AI的智能是有方法的,人类的智慧可以怎么群体性地增强?当AI的智力在无限提高,人类的智慧水平没有跟上,怎么办?
李想:有可能智慧只需要前进一点,就会解决很多问题。
比如,人类的智慧有了民主结构,有了不同时代的组织设计,相比动物可能有了婚姻关系,又产生了学校,产生了高等教育,这些东西都会在发生变化。
但我觉得,真的,你可以相信5年到10年,AI一定比人的能力更强。人干什么?这本身,如何去提升智慧,也是人类在解决自己的问题。
张小珺:我昨天晚上问了ChatGPT一个问题,他的回答令我感到震惊。
ChatGPT说:人类不一定永远站在进化之巅。人类习惯以为我是最复杂的智能,但如果AI演化出更复杂的意识结构或更有效的集体智能,那么人类也许不再是中心物种。人类可能是孕育智能生命形态的中介,人类正经历认知主权的让渡。
你怎么看它的语言?
李想:今天人类和AI之间的关系是一个未解的问题。如果AI解决了,AI就统治人类。如果人类解决了,人类仍然统治文明。
当然这肯定是历史至今,人类出现以后最大的一个难题。我还是有信心人类可以解决。
张小珺:需要人类一起做什么?
李想:把智慧当成一个重要的人类特质去发展。
只要人类掌握了整个智慧的制高点,人类仍然是文明的带领者。
张小珺:在AI面前,什么是值得被保留的人性?
李想:所有的人性都应该得以保留,无论是好的和坏的。
没有坏的,就没有好的。一个人优点的另外一面,就是他的缺点。
我们如果只想要好的东西,放弃所有不好的东西,这并不成立。你可以把好的东西和不好的东西都当成一种特质——它是文化的特质,生命的特质,性格的特质,能力的特质。
这样才是一个有生命力的世界,才是活生生的人。(转载自语言即世界language is world)
扫码下载app 最新资讯实时掌握
