×
加载中...
大模型之路,阶跃星辰选择了一条「无人区」
腾讯科技 2025-05-10 10:32

2025年,全球AI大模型的发展路径呈现出显著的差异化趋势。

全球范围内,OpenAI专注“超级模型+万能平台”;Gemini强化安卓生态,端云协同与多模态领先;Anthropic主攻安全可信AI和Agent能力;xAI依托社交数据优化Grok;Meta坚持开源但进展放缓。

国内竞争同样激烈:有资金有入口又有场景的科技大厂,继续在基础模型能力上投入,并开始将AI模型的能力和自身业务场景融合。明星创业公司中,DeepSeek追求高性价比;智谱AI布局全矩阵;Kimi试水社交;百川专精医疗;零一万物双轨并行;Minimax海外产品Talkie月活破千万。

而成立刚刚满两周年的阶跃星辰,选择模态全覆盖路径并坚持原生多模态理念,创始人姜大昕曾多次强调,“多模态是通往AGI的必经之路。”

在这两年内,阶跃星辰发布了22款自研基座模型,其中16款为多模态模型。最新开源的Step1X-Edit图像编辑模型,性能达到了同类开源模型的SOTA。因此,阶跃星辰也被业内称为“多模态卷王”。对此,姜大昕回应:“我是认可‘多模态卷王’这个称号的。”

自创立之初,姜大昕团队曾绘制过一幅智能进化路线图。智能的进化将分为模拟世界、探索世界、归纳世界三个阶段。

图片

姜大昕判断,当下AI模型的技术发展正处于从模仿学习向强化学习的转变阶段,通过强化学习培养机器解决复杂问题的能力,使其具备"系统二"的慢思考能力。

系统一和系统二是由诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)在其著作《思考,快与慢》中提出的概念,用于描述人类思维的两种不同运作模式。系统一是直觉性思考,而系统二是需要有意识集中注意力的慢思考过程。大模型的推理过程就类似于系统二。

在这个阶段,多模态模型的能力将起到决定性的作用,AGI的目标是模拟人类智能,而人类智能本身就涵盖语言、视觉、空间、运动等多种形式,AI具备听、看、说的综合能力,才能更好地理解用户环境并实现自然交互。

但是,姜大昕也指出,“从发展阶段来看,多模态模型目前可能甚至还没看到'Transformer'级别的突破性框架诞生,甚至比GPT-1还早。”

智能终端和Agent是阶跃星辰在上图“探索世界”阶段最看重的应用场景和应用形态,“但是只有出现了多模态理解生成一体化模型,特别是可扩展的一体化,才能实现人形机器人的泛化能力,才能扩展Agent的能力。”

那么,全球目前是否已经有模型能够实现多模态理解生成一体化了?姜大昕判断:“最新的GPT-4o,有可能是理解生成一体化多模态模型,但是不确定它是否能够Scalable(可扩展)。以Sora为代表的当前一代视频生成技术已经接近上限,下一代突破应该基于理解生成一体化。”

可扩展的多模态理解生成一体化模型的诞生之日,将是多模态模型的ChatGPT时刻,而目前,这个领域还是技术的无人区。在探索技术无人区的同时,每家AI创业公司也面临着商业模式和营收的现实问题。

关于阶跃星辰的未来发展路径,姜大昕用三句话进行了概括:坚持基础大模型的研发;发挥多模态领域的差异化优势,积极探索前沿方向;在应用层面通过智能终端Agent构建独特生态。

图片

这三句话背后,隐藏着技术攻坚、商业生态构建等诸多挑战。在小范围沟通会上,姜大昕也与腾讯科技深度探讨了这些问题,重要观点包括:

1)技术发展判断:从多模态模型的技术发展来看,以Sora为代表的当前一代视频生成技术已经接近上限,下一代突破应该基于理解生成一体化。

2)商业模式选择:“超级模型+超级应用”的双轮驱动,模型能力决定应用上限,而应用则为模型提供具体场景和数据。

3)AI时代的增长路径:投流的逻辑在AI时代不一定适用,AI时代产品的流量增长模式可能不同于传统互联网。不仅是DeepSeek,像哪吒2、黑神话悟空、Manus等产品也都不是靠铺天盖地的投流获取用户的。

以下为对话内容精选:

图片

为何多模态理解生成一体化模型

如此重要?

提问:理解生成一体化的路线是公司成立之初就设定好的吗?在这个相对较难的前沿方向上坚持,会对商业化有什么影响?

姜大昕: 成立之初就设定好了这一路线。我认为模型突破是早于商业化的,就像先有GPT-3,才会有ChatGPT;先有多模态融合和推理模型,才会有成熟的Agent。

同样,需要先有多模态理解生成一体化,特别是可扩展的一体化,才能实现人形机器人的泛化能力。

一体化技术突破后,它的意义不仅在于改进现有Agent,还会在具身智能泛化和世界模型构建方面带来全新应用。对端侧来说,理解生成一体化确实能带来更好的理解和生成能力,有助于Agent发展,但其意义远不止于此。

从技术路径发展阶段看,理解生成一体化相当于语言模型发展中的Transformer阶段,甚至比GPT-1还早。Transformer是2017年出现的,而GPT-1是2018年出现的,所以这是一个架构级的基础突破。

提问:阶跃的技术路线是什么?是希望自己创造多模态模型的"Transformer时刻"还是等待别人突破后跟进?

姜大昕: 我们内部有多条技术路线并行探索,因为确实不知道哪条路会成功。不谦虚地说,阶跃的技术人才储备很雄厚,各团队在基于自己的判断尝试。我们当然希望自己做出突破,但真正成功的才有意义。

历史上,Transformer出现之前自然语言处理也有多条技术路线,包括RNN、LSTM等。直到Transformer出现后大家才认可"就是它了"。现在的多路线探索就像当年在寻找更高效的架构,最终会有一个让大家都认可的解决方案。

很有趣的是,2017年Transformer出现后,真正一统天下的不是OpenAI的GPT,而是Google的BERT。当时在自然语言处理领域,BERT完全吊打GPT。

GPT比BERT早出来几个月,但是没有受到同等重视。Ilya Sutskever有种执念,坚信没有生成就谈不上理解。当时从实际效果看,BERT确实更好。甚至GPT-3出来时我们也只认为它有研究价值,因为又大又笨,似乎什么都能做但是什么都做不好,直到ChatGPT出现才改变看法。

语言模型已经经历过这段历程,视觉领域可能会吸取经验。一旦视觉的"Transformer"出现,后面的发展路径会变得顺理成章,大家只需沿着语言模型已探索的路径前进即可。

图片

理解生成一体化模型

实现的标志是什么?

提问:GPT-4o新版本是否已实现理解和生成一体化?

姜大昕:我们猜测GPT-4o可能已将理解和生成放在同一个模型中,但不确定这种方法是否能实现泛化(scalable)。我们追求的理解生成一体化应该像Transformer那样能够扩展,能够处理海量视频数据进行预训练。

判断一个模型是否实现了可扩展的理解生成一体化,关键是看它能否预测下一帧(predict next frame)。

去年Sora发布时,很多人非常兴奋,但我们其实相当失望,因为我们期待的是理解生成一体化的突破,而不仅仅是一个扩散模型生成视频。不过回头看也有道理,从多模态融合直接跨越到理解生成一体化可能太难了,所以现在是理解和生成两条路线独立发展,互相促进。

OpenAI在Sora论文中提到用视觉模型给数据打标,这正是生成帮助理解的例子。

总体方向肯定是要解决"predict next frame"问题,否则后续发展会受限。

提问:如果某个模型能够预测下一帧(predict next frame),具体表现会是什么样子?有什么可验证的标志?

姜大昕:我认为首先它应该能够在给定一个电影开头后持续往下编排,产生有逻辑、符合物理规律的连贯内容。这是可以验证的能力,表明它的预训练做得很好,生成内容既高质量又保持一致性。

回顾语言模型发展历程,GPT-1只能做单独的任务如情感分析、命名实体识别等;GPT-2尝试将所有任务转换为生成任务但效果很差;GPT-3才能像小学生一样写出连贯的段落。类比到视觉领域,如果一个模型能够生成10分钟合情合理的视频内容,我认为就达到了这个阶段。

提问:多模态的"GPT-4时刻"需要理解生成一体化且能够scalable(扩展),这个时刻何时会到来?

姜大昕: 现在这个行业发展速度很难预测。有时技术突破就是一瞬间的事情。就像推理模型的突破,大家一直知道基于模仿学习的大语言模型解数学题存在局限,但具体如何改进并不清楚,直到o1 发布才恍然大悟:原来思维链可以这样实现。

图片

如何看待全球多模态领域的

竞争格局?

提问:能否帮我们定位一下多模态模型的竞争格局?阶跃目前处于什么位置?实现理解生成多模态一体化模型的主要壁垒是什么?是架构算法还是高质量数据标注?

姜大昕: 在国外多模态领域,OpenAI和Google实力很强。Anthropic主要关注点在Agent。X.AI可能有很强的隐藏实力,他们既不缺人才也不缺资金和场景,可能在等待时机爆发。Meta的Llama系列最近看起来进展较慢。

国内则分为两类:一类是像阶跃这样的综合型公司,覆盖所有模态,同时做理解和生成,强调技术底层性并探索下一代架构;另一类则专注于AIGC领域,例如专注于视频生成或专注音乐生成的公司。阶跃的不同之处在于我们不仅专注单一模态或内容生成,而是试图在基础模型上推动代际突破。

关于理解生成一体化模型的壁垒,算法和数据、人才都很重要。

多模态模型面临高维连续空间的建模难题。例如,自回归架构(Auto- Regressive)无法直接处理复杂连续空间,迫使业界普遍采用扩散模型(Diffusion)。扩散模型的本质是通过分步迭代生成结果("一步做不到就分多步完成"),但如何将自回归与扩散模型深度融合仍存在根本性矛盾——可能需要颠覆性架构创新,例如将连续空间离散化为token,或发明全新范式。

这种突破既需要算法层面的深度思考,也存在方向性试错风险,甚至可能彻底推翻现有技术路线。

即使架构突破后,数据质量与规模仍是决定性因素。就像燃油车需要汽油才能行驶,再先进的架构若缺乏适配的多模态训练数据(如精准对齐的图文/视频/3D数据),也无法发挥真正价值。这需要顶尖人才团队在数据工程、标注体系、训练策略等环节持续攻坚。

提问:阶跃每月都有新模型发布,是否会影响在单个模型上的技术深度?为什么不集中力量攻克理解生成一体化而是分散在多个模态上?

姜大昕: 首先,我认同"多模太卷王"这个说法。但需要澄清的是,虽然在外界看来我们每月发布一个新模型,实际上这些模型是在不同技术路线上的。我们的多模态布局非常完整,包括语音、图像、视频、音乐等多个方向。每条技术路线都经过几个月甚至半年的积累才发布一个模型,只是当你同时看这么多方向时,会觉得我们频繁发布新成果。

关于为什么不集中力量攻克理解生成一体化,这是个很好的问题。我们也希望这样做,但理解生成一体化是一个非常综合的挑战。首先,没有强大的语言模型就谈不上理解,而语言模型现在已经进化到推理模型阶段;其次,要做视觉推理需要先有视觉理解能力;最后,理解生成一体化还需要生成能力。因此,不是我们不够聚焦,而是完成这项任务本身就需要多方面能力的支撑。这也是阶跃的优势——我们在所有这些方向上都有很强的能力,才能将它们组合起来探索前沿方向。

图片

在技术无人区探索中的

商业化选择

提问:阶跃提出"超级模型+超级应用"的双轮驱动策略。现在很多大厂也在同时发力应用开发和模型研发,而许多初创公司已放弃预训练大模型。在这种情况下,您认为阶跃在通用大模型方向的核心壁垒是什么?技术、场景还是生态?

姜大昕:我分几个层次回答。首先,为什么我们坚持大模型研发?因为现在这个行业仍处于技术高速发展的阶段。AI行业变化之快令人感慨。

回想去年,GPT-4被视为无比强大的模型,让人觉得国内几乎无人能及;Sora刚出来时给大家带来巨大震撼,而现在已经变得不那么神奇了。也许明年再回看今天的技术突破,比如GPT-4o图像编辑能力,也会变得不那么令人惊讶。阶跃不愿在这个技术高速发展的过程中失去主导地位。

从应用角度看,我们一直认为应用与模型是相辅相成的。模型能力决定应用上限,而应用则为模型提供具体场景和数据。因此,虽然我们的产品形态会随着模型演变而动态发展,但这种逻辑关系始终保持不变。

提问:能否谈谈今年AI应用领域的重要变化,行业的焦点是否已经从聊天机器人到Agent转变?

姜大昕: 大模型早期探索阶段主要是因为基础大模型已经具备了初步的能力和聊天能力,所以产生了一些简单应用。

到了今年,由于模型的多模态能力推理能力的进一步成熟,智能体(Agent)概念开始成为焦点。我们看到非常多新应用出现,比如深度搜索产品的出现,Google、OpenAI和国内公司都在做"深度研究"类应用,还有像manus或flowith这样的通用智能体。

阶跃的产品策略也随之调整,我们将更聚焦于Agent领域。

提问:很多 AI公司都在通过互联网时代的投流方式来做增长。您怎么看?

姜大昕: DeepSeek给我们的一个重要启示是,投流的逻辑在AI时代可能并不完全成立。DeepSeek从未大规模投放流量,但如果放开流量限制,用户规模破亿不成问题。

我认为我们需要重新思考AI时代产品的流量增长模式,它可能不同于传统互联网的玩法。不仅是DeepSeek,像哪吒2、黑神话悟空、Manus等产品也都不是靠铺天盖地的投流获取用户的。这是在悄然变化的。

提问:阶跃选择做云端平台构建智能终端Agent生态,为什么选择成为供应商角色而非直接toC,比如开发类似Manus那样的产品?

姜大昕: 因为智能终端Agent是个全新领域,我们更好的策略是先与已有大量用户和场景的头部企业合作,通过实际应用,探索模型如何更好地发挥作用。如果一开始就做ToC产品,第一步就需要获取用户增长,这很困难。与合作伙伴一起探索清楚后,我们未来自己独立开发产品也是可能的。

另外,未来还有一个很诱人的场景,目前所有终端设备都是孤立的,就是打通所有设备,跨设备进行交互。

提问:您与OPPO合作的"一键问屏"功能目前已能实现图片理解,未来是否会有更多类似Computer Use或Phone Use这样的Agent功能,与手机系统深度结合,调用更多权限完成操作?

姜大昕: 确实是。从技术能力上这些已经完全可以实现,只是将其产品化量产还需要一定时间。实现过程中确实会面临API权限打通、应用数据之间的壁垒等挑战。

这正是为什么技术虽已成熟,但产品成熟仍需时间的原因。这是一个综合性问题,涉及手机厂商关系、生态建设等多个方面,需要时间来探索合适的互动方式。

提问:阶跃在智能座舱领域的能力边界定位是什么?现在有些创业公司专做Agent,将大模型视为能力供应方,直接与车厂合作。阶跃在这方面的思考是什么?

姜大昕: 我认为纯应用公司始终面临一个风险:当通用模型能力进入下一阶段时,它们可能被降维打击。因此,我们没有将整个公司围绕某一个应用构建,而是继续专注于技术和模型能力的提升。

但我们非常重视应用,因为通用模型的许多能力需要通过应用来牵引。例如,在测试智能玩具时,合作方提出一个挑战:如何判断小孩说话停顿时是在思考下一个词,还是已经说完了?这种在通用场景中不常见的问题,如果能在模型层面解决,将提升模型整体能力。因此,我们认为在不同场景中寻找这类挑战并将其反馈给模型,能促进模型能力的增长。(转载自腾讯科技)

扫码下载app 最新资讯实时掌握