兵临OpenAI！谷歌集结2500人「复仇」，Gemini 3夺回AI王座

新智元 2025-12-03 12:03

伴随Gemini 3的发布，谷歌一举问鼎AI王座！

曾经被认为处于「落后」状态的谷歌，如今正凭借一系列技术、战略与资源优势，试图夺回在生成式AI时代的主导地位。

近期，谷歌DeepMind的CTO Koray Kavukcuoglu与谷歌AI Studio产品Logan Kilpatrick负责人深度剖析Gemini 3发布盛况、AI前沿创新及AGI征途。

全程45分钟，聚焦模型优化、工程协作与生成媒体崛起，揭示了谷歌AI战略蓝图。

这一轮升级，不只是「又多了一个大模型」，而是谷歌在公开宣告——

我们要和全球用户一起，共建下一代智能系统。

与用户共创，一切才刚刚开始

Gemini 3发布，AI界进入「共建AGI」新阶段。

「我对现在的进展非常激动。」在现场，Koray Kavukcuoglu难掩兴奋，

我们确实在多个维度上推进了技术边界。这就是我们构建AGI的方式：脚踏实地、全情投入。

这并不是一次闭门造车的科研成果，而是一次面向全球用户的「共建实验」。

「我们正和用户一起，协同打造AGI。世界已经变了，新技术正在重塑人们的期待。」

他微笑着补充：「突然之间，更多人都能成为创造者。让任何事物成真。」我们正处在一个激动人心的时代。

Koray表示，很多人对AGI的想象，还是停留在实验室里的「象牙塔」模式。但现实恰恰相反——

「我们并不是关起门来搞研究，而是在与整个世界共同构建AGI。」

他指出，AGI是可靠的系统工程。要构建一套稳定、安全、可靠的系统，就必须从最底层开始打基础。

谷歌采用工程师的思维方式，事先就要考虑这些因素。

他介绍道，在Gemini的训练过程中，安全团队、安全技术、乃至每一位模型研发成员，都直接参与了模型训练的后期过程。「我们不会等到模型做完才来检测安全性，而是把安全性当作核心目标，与模型能力的迭代同步进行。」

Gemini 3的发布不仅是一次模型迭代，更是一场涵盖谷歌各大团队的集体行动。Logan说：「这可能是Google历史上参与人数最多的一次技术发布，仅次于NASA登月。」对此，Koray点头称是。

从2.5到3.0：Gemini不断加速

主持人Logan Kilpatrick是DeepMind团队成员。上次两人坐在一起，还是Gemini 2.5发布时，他们在I/O大会上听Dennis和Sergey谈AI。

当时，Logan就觉得进展非常快——现在看来，根本没慢下来。

Koray对研究的进展非常兴奋。他表示，不管是数据处理、预训练还是后训练，一切都离不开创新:

越是贴近真实世界，模型的接触面越广，反馈信号越丰富，从中诞生的想法就越多。

我们面临的问题会越来越复杂，而正是这些挑战推动我们一步步走向智能的本质。

在某些基准测试上，AI已经接近饱和。

很多人担心，这是不是意味着进展停滞？

Koray并不认同这种看法——

测试集本来就是当初技术尚未突破时设定的，所以过一段时间自然会「被攻克」。

要提升模型能力，就需要不断设立新的基准。这是机器学习的常态：基准推动模型发展，而新模型又促使我们重新定义基准。

技术进步不靠「挤压分数」，而靠重新定义边界。

以GPQA、人类最后的考试等高难度测试为例，最初模型几乎拿不到分，但现在能达到40%以上，这说明模型确实在进步。虽然「每次只提高1%」，但这些1%往往意味着突破了极其复杂的问题。

在Koray看来，最重要的进步衡量标准是——

用户真的在用：

科学家、学生、律师、工程师都在用Gemini模型来写作、编程、创作内容……

在真实世界中，AI模型能持续创造价值，这才是真正的进步。

落地才是AGI的关键

如今，AI基准测试种类繁多。到底要怎么决定要在哪些方面持续发力？

谷歌一直重点关注以下这两大领域。

指令遵循（instruction following）——模型必须能理解用户请求，并按要求回应。
国际化。「谷歌是全球化公司，我们必须确保模型适用于全球用户。」

谈到更技术性的领域，Koray特别提到几个关键词：

函数调用、工具调用、智能体行为、编程能力……

他解释说：「AI模型不仅能自然调用各种工具和函数，更能自己写出这些工具。某种意义上，模型本身就是一种工具。」

这不仅为模型提供了推理能力，也拓展了其实际应用场景。

而代码能力的重要性，不仅因为「大家都是程序员」，更因为代码是数字世界的底层语言——只要你会写代码，就可以创造任何东西。

这意味着，谷歌让更多人拥有了「构建的能力」。

Logan提到这次Gemini 3的发布，还同时上线了谷歌新平台Anti-gravity，一个AI驱动的编程智能体平台。他好奇这种产品层面的「共建」对模型训练是否真的有帮助。

Koray毫不犹豫地回答：「非常重要。」

在他看来，Anti-gravity不仅是一款产品，它让模型直接面对用户，尤其是开发者。谷歌可以从中获取第一手的使用反馈，了解模型在哪些地方需要改进。他举例说：

不仅是Anti-gravity，AI Studio、Gemini App、搜索的AI摘要功能——我们通过这些产品获得了大量反馈。

正是这种与产品的深度整合，帮助我们了解用户真正的需求。

他强调道：「AI模型要真正有用，必须在真实场景中落地。这才是关键。」

Gemini 3很强，但还远未「满分」

Gemini 3刷新了多项基准测试，但谷歌清楚知道他们还有很长的路要走。

他们很清楚——

写作、编程不够完美。
特别是「智能体行为」和「工具使用」这块，Gemini还有很多提升空间。

Koray坦言：「并不是有意忽视智能体与工具调用，我觉得主要原因是——我们当时离真实世界的应用场景还不够近。」

他说，Gemini项目一开始更多是在研究环境中展开，但随着项目逐步转向产品化，它的「开发环境」也越来越贴近实际需求。越贴近用户，越能理解真实的技术难题。

五年前， Gemini研究人员还在写论文、做研究。而现在，每六个月Gemini迭代一次，每月或每六周更新一次。

过去是25人署名论文，现在是2500人参与Gemini 3项目。

回首往事，真是令人感慨！

他认为，这是谷歌的巨大优势之一——从芯片、数据中心、网络、工程到模型算法，每一层都有世界级专家，而Gemini正是在这种「全栈协作」的基础上诞生的。

「这就是为什么需要几千人合作。这不是障碍，这是力量。」

统一架构：我们正在靠近「万能模型」

谈到多模态发展时，Logan提到Gemini V3、Nano Banana模型等图像与视频生成模型的进展，并好奇：「视频模型真的是构建AGI的一部分吗？」

Koray回顾了过去十几年的发展：

最早的生成模型集中在图像，是因为图像更容易观察和理解世界中的物理规律。
过去，大家以为文本进展会慢，但事实证明文本是最容易突破的领域。
现在，图像、视频、音频等多模态模型的能力正在回归，它们和文本模型的架构也正在趋同。

他举例说，Nano Banana模型是首次让用户能与图像生成模型进行对话式交互，「文本模型带来的世界理解能力，和图像模型带来的感知能力，一旦结合，就会产生极大的协同效应。」

他还解释道：

现在模型架构确实越来越统一了，过去图像模型和文本模型的架构差异很大，但现在它们正在自然融合，因为大家都在追求更高的效率与表现力。

尽管趋势在向统一架构迈进，但Koray指出：图像生成仍然是一个难度极大的方向。

因为AI模型的学习信号主要来自输出空间，而现在的学习信号以代码和文本为主，图像则更难。

「图像不仅要像素级完美，还要概念上连贯。它每一个像素的存在都要契合整张图的主题。这种双重要求，训练起来特别难。」

不过Koray也很乐观：「我们会继续寻找适合的模型创新，让统一模型真正成为现实。」

当Gemini模型能把大段复杂文本的核心概念，用一张图表达出来，那感觉就是魔法时刻。

他认为，这正是多模态模型的价值所在——AI模型不仅能理解抽象，还能用最直观的方式表达出来。

诚实面对落后，是唯一的出路

加入谷歌的初期，Logan有种「谷歌是AI界的挑战者」的感觉。虽然有技术底子，但外界并不看好。

Koray点头回应：「我当时也有一样的感觉。说实话，在大语言模型（LLM）刚崛起的阶段，我们并不在最前线。」

这也是一次深刻的教训——永远不要忽视新方向的重要性。

启动Gemini项目时，谷歌非常明确形势：「我们落后了，我们需要迎头赶上，我们还没有掌握关键能力。」

初期，Gemini团队必须快速学习别人的做法，同时找到自己的创新路径——无论是模型结构、训练流程、数据使用还是协作方式，都做了非常深度的调整。

如今，他们找到了独属于谷歌、属于Gemini的系统打法。

外界常说，谷歌太大、太慢、不够灵活。但Koray有不同看法——

规模不是阻碍，是独特的力量源泉。

谷歌下一阶段怎么超越自己？

Koray的回答一如既往地冷静清晰：

我们一定会继续进步，每一个方向都有改进空间。

我们的目标一直很清晰——构建真正的智能。我们会把全部的心思、创新力和资源投入到这条路上，行稳致远。

Gemini下一阶段永远在前线，也永远准备好革新。

（转载自新智元）

扫码下载app 最新资讯实时掌握

Gemini 谷歌

上一篇瞳行科技发布国内首款AI助盲眼镜，基于通义千问打造

下一篇前大疆植保无人机开创者吴旭民创业智能房车，天使轮估值超3亿