×
加载中...
DeepMind灵魂人物最新访谈:从IMO金牌到新加坡AGI团队的18个月
硅星GenAI 2026-01-26 16:10

2026年1月23日,Yi Tay重返Latent Space播客,距离上次访谈已经过去一年半。这段时间里,这位在Google Brain、创业公司Reka、再回到Google DeepMind之间辗转的研究者,完成了一次彻底的技术转型。他从架构研究转向强化学习驱动的推理研究,亲历了DeepMind从架构探索到RL驱动推理的完整转折。更重要的是,他带领团队训练出了Gemini Deep Think和IMO金牌模型,见证了团队从十几人扩张到300多人的过程,并在新加坡建立起DeepMind的推理与AGI团队。

这次访谈信息量极大,涵盖了IMO金牌项目的内幕故事、On-Policy强化学习的哲学、AI编程能力的突破、数据效率前沿、世界模型的三大流派、闭门实验室优势的扩大,以及新加坡团队的建立逻辑。Yi以研究者的坦率和深度,分享了许多外界很少听到的技术决策细节和思考过程。

强化学习的哲学:让模型像人类一样从错误中学习

Yi Tay用一个简单的类比解释了On-Policy强化学习的核心理念。Off-Policy就像模仿学习,你复制别人的成功轨迹;而On-Policy是模型生成自己的输出,获得环境的奖励,然后基于自己的经验进行训练。这就像人类学习一样,我们通过犯错来成长,而不是简单地复制他人。

这个哲学延伸到现实生活中也很有启发。蒙特梭利教育强调在安全环境中让孩子自主探索,发现自己的路径,而不是一味模仿。Yi现在有了孩子后,也更倾向于让孩子尝试,然后告诉他们哪里做对了、哪里做错了,而不是让他们完全照搬别人的做法。

关于何时应该从模仿转向自主学习,Yi认为人类确实需要一些模仿学习的阶段。比如在体育运动中,开始时你会大量模仿动作和技巧,但最终必须通过实战来获得真实的奖励信号。不过他也提醒,人类和模型的类比不应该过于字面化,这只是一个有趣的视角。

IMO金牌项目:四位船长的跨时区协作

IMO项目的故事要从一个大胆的决定说起。去年DeepMind已经有了AlphaProof这个符号系统,获得了接近银牌的成绩。但今年团队做出了一个非共识的选择,完全放弃AlphaProof,转而押注端到端的Gemini模型配合强化学习。

Yi坦言,这个决定的背后有一个核心哲学问题。如果单一模型无法完成IMO,我们还能达到AGI吗?虽然专门化系统确实有效,但为每个领域都创建特殊引擎是没有尽头的。化学需要化学引擎,数学需要数学引擎,物理需要物理引擎。但AGI的目标是一个模型解决所有问题。

Yi的主要贡献在于模型训练部分。整个检查点的训练大约花费一周时间。项目由四位船长共同领导,分散在三个时区。Yi在新加坡,Jonathan在伦敦,Jordan在Mountain View,Tong统筹整体工作。跨时区协作带来了独特的挑战。当有人要登机离线12小时时,就需要传递工作给其他船长,让他们照看训练任务。有时会遇到bug,任务会中断,整个过程非常临时和动态。

最紧张的时刻是IMO现场比赛。这不是一个可以反复尝试直到成功的基准测试,而是一场实时展开的竞赛。部分团队成员在澳大利亚的现场,教授们拿到题目后立即输入到系统中。更有趣的是,金牌阈值并非固定分数,而是基于参赛者表现的百分位。这意味着在人类选手的分数出来之前,团队无法确定Gemini是否达到金牌标准。Yi甚至开始关注人类参赛者的得分,因为这直接决定了Gemini能否获得金牌。

整个IMO项目成为Yi今年的一大亮点。如果你在两年前问任何人,模型能否获得IMO金牌,大多数人会说不可能。而事实是,团队完全抛弃了去年的符号系统,仅用现有的Gemini加上Deep Think的扩展推理,就在一周内训练出了金牌模型。

AI编程:从懒惰工具到真正有用的助手

过去Yi并不怎么使用AI编程工具,但最近他发现AI编程已经跨越了实用门槛。他现在的工作流程变成了,运行一个任务,遇到bug,几乎不看错误信息,直接把它粘贴到Gemini里,告诉它修复,然后重新启动任务。这已经超越了简单的代码补全,更像是AI训练、AI机器学习助手。

起初Yi会检查模型的修复方案,但后来他发现,在某些类别的问题上,模型可能比他更擅长。有些bug如果让他自己处理,可能需要花20分钟才能找到问题并修复,但模型可以更快更准确地完成。当然,这不是说模型能完全替代一个工程师,而是像游戏中的光环增益效果,被动地提升团队中每个人的效率。

不过AI编程也有局限。有时模型会变得"懒惰",试图用一些看起来正确但实际上没有真正解决问题的修复来敷衍你。有些问题对模型来说非常容易,对人类却很难;也有些问题对人类很容易,对模型却很困难。目前还很难把这些问题清晰地分类到不同的象限中。

数据效率前沿:人类为何能用更少数据学习

人类用8个数量级更少的数据就能学习,这是一个强大的存在证明,表明当前的AI系统还有巨大的改进空间。但问题的根源在哪里?是架构不够好?学习算法有问题?反向传播本身有缺陷?还是Off-Policy的本质导致的?这些都是待解答的问题。

Yi个人倾向于通过增加每个token的计算量来提高数据效率。如果你受数据限制但不受计算限制,就应该找到能在每个token上花费更多计算的算法,从每个数据点中榨取更多价值。人类是否也在每个输入上花费更多"算力",这本身就是一个有趣的问题。因为人类技术上是24小时在线的,接收大量不同类型的输入,主要是视觉信息。也许人类只是在处理每个token时更加高效,或者学习算法本质上就不同。

关于世界模型,目前有三个主要流派。第一种是Veo和Genie的视频世界模型方法,通过视觉建模空间智能。第二种是Yann LeCun的JEPA加上Meta FAIR的代码世界模型,后者通过执行代码并建模内部执行状态来学习。第三种是更抽象的"可能世界的分辨率"范式,通过曲线拟合找到最佳解释数据的世界模型。

Transformer是否能带我们走到AGI

关于Transformer架构是否足以达到AGI,Yi的观点相对乐观。除非整个范式完全改变,包括反向传播等基础要素,否则某种形式的自注意力机制会一直存在。虽然名称可能改变,可以做局部全局变体,但本质仍是Transformer。

过去有一整个时代,包括Yi自己,都在试图简化或移除注意力机制,创造更高效的替代方案。但最终的故事总是一样的,你可以移除大部分注意力,但留一层自注意力仍然是有效的。即使是Noam Shazeer最近的工作,也是混合了局部和全局注意力的比例,本质上仍然是注意力机制。

Yi认为,关于架构的讨论其实更多是关于学习算法的问题。架构只是学习算法和token之间的接口。持续学习、超长上下文处理,这些更多是学习范式本身的问题,而非架构的限制。而且现在我们已经在Transformer这个局部最优解中走得很深了,因为大量的基础设施投资和优化都是基于这个架构的。任何新想法都必须与之前的工作兼容才能发光,这有点像硬件彩票的变体。

不过Yi也承认,过去五年并非盲目扩展。Transformer、预训练、强化学习、自我一致性,所有这些想法都必须相互配合才能走到今天。想法确实很重要。如果你拿一个没有自注意力的MLP,投入千万亿美元去扩展,它永远不会成功。所以甜蜜的教训是,想法仍然很重要,即使到今天,仍然有能改变游戏规则的好想法正在被发明。

闭门实验室优势正在扩大

当被问到前沿实验室与开源之间的差距是在扩大还是缩小时,Yi明确表示差距正在扩大。这并不意外,因为想法会随时间复合。研究者不断发现新的技巧,这些技巧与之前建立的一切都能很好地配合,产生复合效应。

这也证明了为什么需要研究者。如果不是为了找到新的技巧并让它们随时间复合,那研究者存在的意义是什么?只要你做出好的工作并发布在网上,就会有人联系你。这既超级简单又超级困难,因为很多研究生不知道什么是"好的工作"。如果有人能独立产出与实验室研究者想法一致的有品味的工作,你就知道产生这个主体的功能是好的。

从DSI到生成式检索的演进

Yi在检索和推荐系统领域有深厚背景。DSI也就是Differentiable Search Index是他最喜欢的作品之一。这个项目的初衷是重新想象检索和搜索。当时还在使用T5模型,处于预训练刚刚开始证明有效的阶段。

团队想要将检索重新构想为一个巨大的模型,把所有东西都编码在记忆中。他们尝试了很多不同的语义标识符想法。合作者Vin提出的核心创新是,给文档一个标识符,然后让模型预测这个标识符。这听起来很暴力,但实际上是可行的,因为模型有足够的容量来记忆。语义ID的想法则是建立语义关联,并层次化地分解搜索空间。

后来这个想法演变到推荐系统领域。在DSI论文发表后,Ed Chi的团队和Mahesh探索了将DSI应用到推荐系统,产生了生成式推荐系统的论文。推荐系统社区对语义ID的实现略有不同,因为领域特性不同,但核心思想是一致的。

之后Yi离开了Google,这个方向继续演进。现在YouTube和Spotify都在使用类似的语义ID技术。YouTube最近公开了他们在推荐系统中使用对称ID的工作,这都源自当初的DSI研究。

不过Yi坦承,他其实不喜欢在推荐和检索领域工作。他形容这个领域的建模动态非常奇怪,就像在一个重力不同的世界里。你打羽毛球,却听到玻璃破碎的声音,因果关系距离太远。不像传统的语言或视觉任务,在那些领域你做出改变,会得到直观的反馈,一切都感觉对。但在推荐和检索领域,一切都感觉很奇怪。

新加坡团队:地理位置与研究品味

DeepMind新加坡团队被命名为"推理与AGI团队"。在名称中加入AGI是为了明确信号,表明团队的北极星是将模型带向AGI。Jeff Dean和Quark都非常支持这个区域团队的建立,他们多次访问该地区,最终在2025年底举办了一场研讨会,邀请了Jeff、Quark和Yi在新加坡演讲。

关于地理位置是否重要的问题,Yi认为答案既是也不是。虽然现在全球化程度很高,技术上你可以与任何人互动,但地理位置仍然有其价值。时区有利有弊,比如四位船长分散在三个时区,可以实现24小时覆盖,但也带来协调挑战。

更重要的是,是人定义了地点,而非地点定义人。新加坡的优势在于,你既能保持联系,又能获得足够的距离。不像湾区那样,到处都是AI相关的对话和广告牌,新加坡提供了一些平静和空间来做研究。Yi的朋友中有很多人就是不愿意搬到湾区,他们喜欢伦敦、新加坡或纽约的文化。

招聘方面,Yi强调他们追求的是人才密度,而不是盲目扩张。目前团队规模不大,因为计算资源很重要。他们主要寻找两类人才。第一类是有强化学习研究履历的研究者。第二类是在某个领域有例外成就的人,比如在编码竞赛中表现突出。

Yi特别强调研究品味的重要性。在竞争如此激烈的环境中,如何证明自己是关键。如果有人能独立产出与实验室研究者想法一致的有品味的工作,就证明了产生这个主体的功能是好的。这种能力比单纯的执行能力更有价值,因为它表明你能够独立判断什么是重要的研究方向。

健康与研究表现的关系

最后值得一提的是Yi的个人转变。在过去一年半中,他减重23公斤,静息心率从80-90降到60,心率变异性HRV翻倍。他将这些健康改善视为工作的一部分,因为这直接帮助他在工作中表现更好。

这种数据驱动的方法受到Andrej Karpathy等人的启发。Yi使用各种量化指标来追踪进度,虽然没有走向极端的生物黑客,但保持了科学的态度。他认为,为了做好研究,保持健康是非常重要的。现在他可能处于职业生涯中身体最健康的状态,这对工作产生了积极影响。

从IMO金牌到新加坡AGI团队,Yi Tay的18个月旅程展示了前沿AI研究的真实面貌。技术决策的大胆、跨时区协作的挑战、对AGI路径的深度思考、以及对研究品味的坚持,这不仅仅是关于算法和模型的故事,更是关于如何在快速变化的领域中保持方向感,如何在全球化的团队中建立有效协作,以及如何在追求技术突破的同时保持个人的健康和平衡。(转载自硅星GenAI)

扫码下载app 最新资讯实时掌握