×
加载中...
兵临OpenAI!谷歌集结2500人「复仇」,Gemini 3夺回AI王座
新智元 2025-12-03 12:03

伴随Gemini 3的发布,谷歌一举问鼎AI王座!

曾经被认为处于「落后」状态的谷歌,如今正凭借一系列技术、战略与资源优势,试图夺回在生成式AI时代的主导地位。

近期,谷歌DeepMind的CTO Koray Kavukcuoglu与谷歌AI Studio产品Logan Kilpatrick负责人深度剖析Gemini 3发布盛况、AI前沿创新及AGI征途。

全程45分钟,聚焦模型优化、工程协作与生成媒体崛起,揭示了谷歌AI战略蓝图。

这一轮升级,不只是「又多了一个大模型」,而是谷歌在公开宣告——

我们要和全球用户一起,共建下一代智能系统。

与用户共创,一切才刚刚开始

Gemini 3发布,AI界进入「共建AGI」新阶段。

「我对现在的进展非常激动。」在现场,Koray Kavukcuoglu难掩兴奋,

我们确实在多个维度上推进了技术边界。这就是我们构建AGI的方式:脚踏实地、全情投入。

这并不是一次闭门造车的科研成果,而是一次面向全球用户的「共建实验」。

「我们正和用户一起,协同打造AGI。世界已经变了,新技术正在重塑人们的期待。」

他微笑着补充:「突然之间,更多人都能成为创造者。让任何事物成真。」我们正处在一个激动人心的时代。

Koray表示,很多人对AGI的想象,还是停留在实验室里的「象牙塔」模式。但现实恰恰相反——

我们并不是关起门来搞研究,而是在与整个世界共同构建AGI。

他指出,AGI是可靠的系统工程。要构建一套稳定、安全、可靠的系统,就必须从最底层开始打基础。

谷歌采用工程师的思维方式,事先就要考虑这些因素。

他介绍道,在Gemini的训练过程中,安全团队、安全技术、乃至每一位模型研发成员,都直接参与了模型训练的后期过程。「我们不会等到模型做完才来检测安全性,而是把安全性当作核心目标,与模型能力的迭代同步进行。」

Gemini 3的发布不仅是一次模型迭代,更是一场涵盖谷歌各大团队的集体行动。Logan说:「这可能是Google历史上参与人数最多的一次技术发布,仅次于NASA登月。」对此,Koray点头称是。

从2.5到3.0:Gemini不断加速

主持人Logan Kilpatrick是DeepMind团队成员。上次两人坐在一起,还是Gemini 2.5发布时,他们在I/O大会上听Dennis和Sergey谈AI。

当时,Logan就觉得进展非常快——现在看来,根本没慢下来。

Koray对研究的进展非常兴奋。他表示,不管是数据处理、预训练还是后训练,一切都离不开创新:

越是贴近真实世界,模型的接触面越广,反馈信号越丰富,从中诞生的想法就越多。 


我们面临的问题会越来越复杂,而正是这些挑战推动我们一步步走向智能的本质。

在某些基准测试上,AI已经接近饱和。

很多人担心,这是不是意味着进展停滞?

Koray并不认同这种看法——

测试集本来就是当初技术尚未突破时设定的,所以过一段时间自然会「被攻克」。

要提升模型能力,就需要不断设立新的基准。这是机器学习的常态:基准推动模型发展,而新模型又促使我们重新定义基准。

技术进步不靠「挤压分数」,而靠重新定义边界。

以GPQA、人类最后的考试等高难度测试为例,最初模型几乎拿不到分,但现在能达到40%以上,这说明模型确实在进步。虽然「每次只提高1%」,但这些1%往往意味着突破了极其复杂的问题。

在Koray看来,最重要的进步衡量标准是——

用户真的在用:

科学家、学生、律师、工程师都在用Gemini模型来写作、编程、创作内容…… 

在真实世界中,AI模型能持续创造价值,这才是真正的进步。

落地才是AGI的关键

如今,AI基准测试种类繁多。到底要怎么决定要在哪些方面持续发力?

谷歌一直重点关注以下这两大领域。

  • 指令遵循(instruction following)——模型必须能理解用户请求,并按要求回应。

  • 国际化。「谷歌是全球化公司,我们必须确保模型适用于全球用户。」

谈到更技术性的领域,Koray特别提到几个关键词:

函数调用、工具调用、智能体行为、编程能力……

他解释说:「AI模型不仅能自然调用各种工具和函数,更能自己写出这些工具。某种意义上,模型本身就是一种工具。」

这不仅为模型提供了推理能力,也拓展了其实际应用场景。

而代码能力的重要性,不仅因为「大家都是程序员」,更因为代码是数字世界的底层语言——只要你会写代码,就可以创造任何东西。

这意味着,谷歌让更多人拥有了「构建的能力」。

Logan提到这次Gemini 3的发布,还同时上线了谷歌新平台Anti-gravity,一个AI驱动的编程智能体平台。他好奇这种产品层面的「共建」对模型训练是否真的有帮助。

Koray毫不犹豫地回答:「非常重要。」

在他看来,Anti-gravity不仅是一款产品,它让模型直接面对用户,尤其是开发者。谷歌可以从中获取第一手的使用反馈,了解模型在哪些地方需要改进。他举例说:

不仅是Anti-gravity,AI Studio、Gemini App、搜索的AI摘要功能——我们通过这些产品获得了大量反馈。 


正是这种与产品的深度整合,帮助我们了解用户真正的需求。

他强调道:「AI模型要真正有用,必须在真实场景中落地。这才是关键。」

Gemini 3很强,但还远未「满分」

Gemini 3刷新了多项基准测试,但谷歌清楚知道他们还有很长的路要走。

他们很清楚——

  • 写作、编程不够完美。

  • 特别是「智能体行为」和「工具使用」这块,Gemini还有很多提升空间。

Koray坦言:「并不是有意忽视智能体与工具调用,我觉得主要原因是——我们当时离真实世界的应用场景还不够近。」

他说,Gemini项目一开始更多是在研究环境中展开,但随着项目逐步转向产品化,它的「开发环境」也越来越贴近实际需求。越贴近用户,越能理解真实的技术难题。

五年前, Gemini研究人员还在写论文、做研究。而现在,每六个月Gemini迭代一次,每月或每六周更新一次。

过去是25人署名论文,现在是2500人参与Gemini 3项目。

回首往事,真是令人感慨!

他认为,这是谷歌的巨大优势之一——从芯片、数据中心、网络、工程到模型算法,每一层都有世界级专家,而Gemini正是在这种「全栈协作」的基础上诞生的。

「这就是为什么需要几千人合作。这不是障碍,这是力量。」

统一架构:我们正在靠近「万能模型」

谈到多模态发展时,Logan提到Gemini V3、Nano Banana模型等图像与视频生成模型的进展,并好奇:「视频模型真的是构建AGI的一部分吗?」

Koray回顾了过去十几年的发展:

  • 最早的生成模型集中在图像,是因为图像更容易观察和理解世界中的物理规律。

  • 过去,大家以为文本进展会慢,但事实证明文本是最容易突破的领域

  • 现在,图像、视频、音频等多模态模型的能力正在回归,它们和文本模型的架构也正在趋同。

他举例说,Nano Banana模型是首次让用户能与图像生成模型进行对话式交互,「文本模型带来的世界理解能力,和图像模型带来的感知能力,一旦结合,就会产生极大的协同效应。」

他还解释道:

现在模型架构确实越来越统一了,过去图像模型和文本模型的架构差异很大,但现在它们正在自然融合,因为大家都在追求更高的效率与表现力。

尽管趋势在向统一架构迈进,但Koray指出:图像生成仍然是一个难度极大的方向。

因为AI模型的学习信号主要来自输出空间,而现在的学习信号以代码和文本为主,图像则更难。

图像不仅要像素级完美,还要概念上连贯。它每一个像素的存在都要契合整张图的主题。这种双重要求,训练起来特别难。

不过Koray也很乐观:「我们会继续寻找适合的模型创新,让统一模型真正成为现实。」

当Gemini模型能把大段复杂文本的核心概念,用一张图表达出来,那感觉就是魔法时刻。

他认为,这正是多模态模型的价值所在——AI模型不仅能理解抽象,还能用最直观的方式表达出来。

诚实面对落后,是唯一的出路

加入谷歌的初期,Logan有种「谷歌是AI界的挑战者」的感觉。虽然有技术底子,但外界并不看好。

Koray点头回应:「我当时也有一样的感觉。说实话,在大语言模型(LLM)刚崛起的阶段,我们并不在最前线。」

这也是一次深刻的教训——永远不要忽视新方向的重要性。

启动Gemini项目时,谷歌非常明确形势:「我们落后了,我们需要迎头赶上,我们还没有掌握关键能力。」

初期,Gemini团队必须快速学习别人的做法,同时找到自己的创新路径——无论是模型结构、训练流程、数据使用还是协作方式,都做了非常深度的调整。

如今,他们找到了独属于谷歌、属于Gemini的系统打法。

外界常说,谷歌太大、太慢、不够灵活。但Koray有不同看法——

规模不是阻碍,是独特的力量源泉。 

谷歌下一阶段怎么超越自己?

Koray的回答一如既往地冷静清晰:

我们一定会继续进步,每一个方向都有改进空间。 


我们的目标一直很清晰——构建真正的智能。我们会把全部的心思、创新力和资源投入到这条路上,行稳致远

Gemini下一阶段永远在前线,也永远准备好革新。

(转载自新智元)


扫码下载app 最新资讯实时掌握