就在刚刚,Transformer 论文作者之一,知名 AI 研究员 Noam Shazeer 在 社交媒体发文宣布,他将正式加入 OpenAI。「我很兴奋地分享,我将加入 OpenAI,并期待与那里出色的团队合作。这是一个艰难的决定,决定离开。我对 Google 的优秀团队以及我们共同打造的一切感到无比自豪。与你们所有人共事是一种荣幸和乐趣。」对于普通用户来说,Noam Shazeer 可能不是一个高频出现的名字。但在今天的大模型行业里,他几乎站在所有关键故事的交汇处。ChatGPT 里的那个「T」,来自 Transformer。而 Shazeer 正是 2017 年论文《Attention Is All You Need》的八位作者之一。OpenAI 从 Google 挖走的,不只是 Gemini 的一位负责人,也是一位亲手参与搭建现代大模型底层技术的人。从 Google 早期员工,到 Transformer 作者Shazeer 不是近几年才冒出来的 AI 明星。他 2000 年加入 Google,是早期员工之一。最开始,他做的是搜索和广告系统相关工作,包括拼写纠错、广告文本排序、垃圾邮件检测、新闻排序等工程项目。换句话说,他在 Google 的前十多年,几乎涉猎了这家公司的所有核心业务。2012 年前后,Google Brain 成为 Google 内部探索深度学习的核心团队。Shazeer 从应用工程走向基础研究,也进入了后来重塑整个 AI 行业的技术脉络。2017 年,《Attention Is All You Need》发表。论文提出 Transformer 架构,用注意力机制取代过去在机器翻译中常见的循环网络和卷积网络。它带来的关键变化,是让模型训练更容易并行,规模可以继续变大,能力也开始随规模增长而显著跃迁。此后,GPT、BERT、Claude、Gemini 等大模型,都与 Transformer 这条技术路线有关。在这篇论文里,Shazeer 的贡献是突出的。他参与了注意力机制、多头注意力等关键设计,也亲自写过早期实现代码。后来他还提出过 Mixture of Experts、Multi Query Attention、Adafactor 等技术方向,许多都直接影响了今天大模型训练和推理的效率。某种意义上,OpenAI 今天能成为 OpenAI,Google 当年那批研究者是绕不开的源头。他曾经离开 Google,只因 Google 没有发布那个聊天机器人Shazeer 与 Google 的关系,也历经几番波折。2018 年,Google Brain 研究工程师 Daniel De Freitas 开始做一个对话 AI 项目。Shazeer 很快成为核心合作者。到 2020 年,他们做出了 Meena,一个 26 亿参数的神经对话模型。Meena 可以闲聊、开玩笑、讨论电视节目,也能进行更复杂的对话。Google 当时公开介绍过它,并称其在「合理性和特异性平均」指标上领先同类聊天机器人。原因并不难理解。聊天机器人会生成不可控内容,可能带来品牌风险、安全风险和舆论风险。Google 在搜索、广告、移动系统等领域都有庞大既有业务,任何一个 AI 产品的失误,都会被无限放大。据后来报道,他曾认为 Meena 有机会替代 Google 搜索,并创造巨大的商业价值。2021 年,他和 Daniel De Freitas 离开 Google,创立 Character.AI。后来的故事,几乎成了大模型时代最典型的 AI 创业样本。Character.AI 的产品很简单,也很敏锐。用户可以和 AI 角色聊天。角色可以是历史人物、虚构人物、名人,也可以是用户自己创建的陪伴型角色。它没有把 AI 包装成效率工具,而是把 AI 做成了一个可以长期互动的对象。这让 Character.AI 很快在消费级 AI 产品里获得大量用户。2023 年 3 月,Character.AI 完成 1.5 亿美元 A 轮融资,a16z 领投,估值达到 10 亿美元。移动应用上线后,首周下载量超过 170 万次。平台用户停留时长也很夸张,很多人不是问完一个问题就离开,而是把它当成聊天、陪伴、角色扮演和情绪出口。用户越多,推理成本越高。大模型产品的商业化并不只看流量,还要看每一次对话背后的算力账单。Character.AI 虽然有高活跃用户,但收入与成本之间长期紧张。更麻烦的是,角色聊天产品天然会触及内容安全、未成年人保护、情绪依赖等问题。对于一家创业公司来说,既要训练模型、付算力账单,又要做产品增长和安全治理,压力会越来越重。到了 2024 年,Character.AI 开始寻找新的出路。2024 年 8 月,Google 与 Character.AI 达成协议。表面上看,Google 并没有收购 Character.AI。双方签署的是非独家技术授权协议,Google 可以使用 Character.AI 的大语言模型技术。Character.AI 继续独立运营,Dominic Perella 出任临时 CEO,产品团队继续留下。Shazeer、Daniel De Freitas 以及部分研究人员回到 Google,加入 Google DeepMind。随后,Shazeer 被任命为 Gemini 的联合技术负责人,与 Jeff Dean、Oriol Vinyals 一起负责 Google 最重要的大模型项目。多家媒体报道称,Google 为这笔交易支付约 27 亿美元。而这笔钱并不只是买一份授权。更准确地说,Google 用一笔极高成本,把这位曾经离开的关键人物 Shazeer 带回了 Gemini。Shazeer 离开 Gemini 加入 OpenAI,则让这场 AI 竞赛进入更微妙的阶段。毕竟,尽管大模型的技术路线仍在高速变化,但一个趋势已经很清楚:顶级研究者的稀缺性在上升。训练更大的模型,不再只是堆 GPU。推理能力、长上下文、低成本推理、模型可靠性、多模态原生能力、Agent 架构,每一个方向都需要少数真正理解模型结构和训练规律的人。他懂 Transformer 的底层逻辑。大模型行业很多人是在使用 Transformer、改造 Transformer、优化 Transformer,而 Shazeer 是最早把它做出来的人之一。他有规模化模型经验。从 Google Brain 到 LaMDA、Meena、Character.AI,再到 Gemini,他经历过研究、产品、创业、基础模型工程和消费级应用。Google 的谨慎,Character.AI 的增长与成本压力,Gemini 的追赶任务,都让他比单纯研究者更了解大模型走向产品时会遇到什么。OpenAI 得到他,相当于得到一位从大模型史前时代一路走到今天的工程型研究者。而 Transformer 诞生近十年后,当年那批作者留下的影响,还在继续影响 AI 公司的格局。