×
加载中...
ChatGPT Agent让奥特曼感受到了AGI,离职人才不吃这一套
未尽研究 2025-07-19 08:19

OpenAIMeta“强盗式挖人挖破了防,昨晚拿出了ChatGPT Agent,证明自己的存在感。奥特曼声称从中感受到了AGI”,但这会比扎克伯格高举超级智能的大旗更有吸引力吗?

几位OpenAI的顶尖人才,赶在发布会前夜离场了。他们打造的o系列推理模型与智能体,正是ChatGPT Agent的基础。他们看到了什么,让他们投奔大模型仍处于颓势的Meta

图片

Agent登场,AGI落地?

据其系统卡(System Card),ChatGPT Agent 是一款新的智能体应用,基于o3模型家族,整合了原来的Deep ResearchOperator的优势。现在,它具备了前者的多步搜索与推理的研究能力,以及后者的与浏览器交互并执行任务的能力;它还可以使用终端工具(terminal tool)执行代码等,或通过连接器(connectors)将 Google Drive等外部数据源接入进来。

不过,在接受媒体采访时,该应用的产品负责人Yash Kumar和研究负责人Isa Fulford确认,OpenAI专门为其开发了新模型。它背后的模型尚未被命名。据OpenAI研究人员透露,它主要通过端到端的强化学习训练而来,也不对应着GPT-5。与旗下搜索更注重低延迟优化不同,它主要围绕高性能优化。

图片

OpenAI提供的官方基准测试中,它的表现超越了自家的旗舰模型与同类产品。在衡量解决各学科专家级任务能力的人类最后考试Humanity's Last Exam)中,如果能力全开,ChatGPT Agent在第一次尝试中(Pass@1)就有41.6%的胜率给出正确答案,远超过同样能力全开的o3(胜率24.9%)与Deep Research(胜率26.6%)。尝试8次,胜率提升到44.4%,与能力全开的Grok 4 Heavy看齐。

在几项模拟复杂真实任务的基准测试中,在差不多一半的情况下,它的表现可以与人类水平相提并论,同时优于同族兄弟的o3  o4-mini。它似乎太强大了,以至于OpenAI在它的介绍卡中,几乎全部篇幅都在讲安全。奥特曼还在X上写了一篇长长的文章,警示用户在用它的时候,授予最低访问权限就行。步调与2个月前Anthropic发布Claude Opus 4类似。

图片

已有不少用户尝试了。OpenAIPro订阅用户花完了原计划PlusTeam用户也有份的算力,后者得等到下周。企业版和教育版用户预计将于夏季晚些时候获得新功能。在正式发布后,Pro 用户每月最多可使用400次,其他付费用户最多使用40次。

最早推出通用智能体Manus,欢迎OpenAI加入这个游戏,然后在对比测试了十个场景后称自家应用完胜。Genspark也公开叫板,直言ChatGPT Agent能力表现不够出色。但OpenAI可以不断迭代优化自身模型性能,来挤出这个市场的其他竞争者。这是两家华人初创公司。

无论如何,下半年,随着用户与AI的交互方式从提示转向授权OpenAI似乎开始兑现它对AGI承诺ChatGPT Agent现在可以完成(结果相对收敛的)认知任务、超越(半数以上的)人类以及(在部分领域)有(替代或增强人力的)经济价值。这也是为什么奥特曼称它有种AGI的感觉。

硅谷巨头的AGI叙事“幻觉”

但是,一直以来,在硅谷的叙事体系中,至少存在两个AGI的概念。一个是硅谷巨头所表述的,一个是AI研究者所信仰的。已经实现或接近AGI,几乎是硅谷巨头当下最迫切的想要宣布的。它们面临大模型变现与应用规模落地的压力。研究机构EpochAI发现,ChatGPT用户总数的增长速度,一直快于付费用户的增长速度,因此,付费用户的比例一直在下降;与此同时,每个用户处理的词元的平均数量又增长了很多。AGI是非常有卖点的营销手段,其实也是一种巨头在商业叙事上下文中的“幻觉”。

黄仁勋称,如果按照当前用于评估AI性能的测试标准来衡量,压根就不需要根本性的技术革新,就能在近期实现AGI的目标。但实现这种程度的AGI,似乎对OpenAI的员工已经没有多少吸引力了。硅谷巨头口中的技术信仰,已经充满了铜臭味。它们如今对AGI的表述与态度,是对追求AGI路线的AI人才的反动。

两年前,在令全世界震惊的董事会政变中,为留住奥特曼,OpenAI的员工以离职相威胁,离开了员工OpenAI就什么都不是。但现在,OpenAI的密集人才库破防了。硅谷的AI人才正在金钱的刺激下加速流动。扎克伯格是个成功的搅局者,在奥特曼虚张声势地说出最优秀的人还没有一个被他们挖走后,就从OpenAI挖出了一个超级智能实验室(MSI Lab)的核心班底。

扎克伯格最近从奥特曼手里挖走的核心人才,就是思维链(CoT)概念的提出者Jason Wei。他也是参与研发o系列模型以及Deep Research的关键人物。

如果他们真的相信,OpenAI很快就能实现他们心目中的AGI,也许他们会更倾向于延迟享受,在亲眼见证这一刻后离开;作为亲手训练出AGI的一线人才,VC们将为之疯狂,即使还没有产品,也会奉上数十亿美元的种子轮资金;现在已经如此了。反观真正对下一阶段的AI充满信心的Ilya,即使面对320亿美元的收购,也没有心动。

验证者定律

AGI或许已经在商业叙事中失去了信仰的重量,但这没有妨碍顶尖AI人才继续眺望技术的边界及其以外的无人区。在离开OpenAI的那一天,Jason Wei在自己的博客上,提出了验证者定律 (Verifier's Law)的框架,来预测未来AI能力边界。

在他看来,一个任务被AI攻克的难易程度,不取决于解决它有多难,而取决于验证它的结果有多容易。解决一个数独和填字游戏是异常困难的,但是要检验它是否正确,却又相当容易。代码生成的突破如此迅速,也正是因为尽管写代码看起来很繁琐,但任何不会写代码的人,都能轻松验证这段代码背后的程序,是否正在正常运作。

验证是否容易,可以抽象为客观性、实时性、可扩展性、低噪声(即验证结果与解决方案质量的相关性)等等特征。如今基准测试饱和的速度之快令人疯狂,但是,过去十年中几乎所有流行的测试基准,都符合它的前四条特征;如果难以验证,那么它就流行不起来。这个逻辑,差不多就是黄仁勋表达的意思。只要存在基准能够很便利地测评它的,都是相对容易的;难得正是超脱于基准之外的那部分。皮查伊和卡帕西用AJIArtificial Jagged Intelligence,非均衡人工智能)来形容这种状态。

图片

在他看来,AI的自我改进不会快速起飞,可能需要数年甚至十年的时间。这与谷歌DeepMind的哈萨比斯的意见相近。这位真正的诺奖得主,认为2025年下半年会出现真正的AI Agent,但仍不能称为AGI,后者还需要23"Transformer"范式突破,大概会在2030年后。迫于竞争压力,长期坚持独立的哈萨比斯,最终向谷歌的资源妥协了,但仍在为平衡商业需求和研究理想而挣扎。

扎克伯格已经树起了个人超级智能(Personal SuperIntelligence)的大旗。Meta花了约150亿美元收购ScaleAI49%股权,除了洗劫核心人才,恐怕还看上了它在验证上的经验。人类最后考试就是ScaleAI主导提出的。这也许无助于Meta突破那些真正难以验证的领域,但至少可以通过不断推动基准测试的优化,去扩展可验证性的最大空间。对于Meta而言,这仍然是有巨大商业价值的。

而那些投奔扎克伯格的AI人才,不管是不是真的被他对PSI技术信仰所打动,至少拥有了尽量少的管理工作尽可能多的GPU”以及合理的回报Meta在俄亥俄州打造的世界上最大的算力集群名叫普罗米修斯(Prometheus),规模1GW,明年上线;路易斯安那州的许珀里翁(Hyperion),高达5GW,面积足以覆盖曼哈顿岛;未来还会有更多以此类泰坦命名的超大规模集群。

AI可以创造出真正的、活生生的独角兽时,我们无疑就实现了AGI上个月,还没从OpenAI离开时,Jason WeiX上表露心迹说,不是价值10亿美元的公司,而是真正带螺旋角的粉红马。”*(转载自:未尽研究)

扫码下载app 最新资讯实时掌握