现在这些 AI 公司,它们嘴上最警惕的那个东西,往往就是它们手上正在拼命造的那个东西。
开会谈风险,他们谈得比谁都恳切,说这技术跑得太快,总得有人管管。会一散,模型照常发布,一个比一个强,时间表一个比一个紧。
同一拨人,同一张嘴,上午警告,下午加速。你要说他们是装的,又不像,可那台滚滚向前的机器也是真的,一天都没停下来过,而且越跑越快。
Anthropic 最新发布的模型 Fable 5 就活了三天。
6 月 9 日上线,6 月 12 日被叫停。那天下午 Anthropic 接到美国政府电话,给了 90 分钟。傍晚五点二十一分,正式指令到达,一切外国国民不论身在何处都不能继续使用这个模型了,连 Anthropic 自己的外籍员工都不行。理由是国家安全。
国家安全这四个字,落到一个模型身上,听着有点重。可它落得下来,是因为 Fable 不简单。这模型是 Anthropic 一直没放出来的 Mythos 的「安全版本」,通过一层安全护栏确保人们无法用它来进行网络攻击、科学研究等可能造成严重后果的事情。但 Amazon 却向美国政府提交了一份报告,说有人能够越狱,直接通过 Fable 调用 Mythos 模型,美国政府担心的就是这一点,于是果断重拳出击。 Anthropic 大概是全世界最认真对待 AI 风险的公司。但无奈这两年模型能力成长得太快了,整条赛道只认一个方向,往前。 Anthropic 比同行更早开始提醒大家如果这样下去可能会有技术失控的风险,甚至主动说过,政府应该有权拦住危险的模型。 没想到美国政府真动手那天,第一个被拦住的是它自家的模型。 Amazon 提示了风险,美国政府要护住国家,Anthropic 在做它认定该做的安全防护工作。每个人都尽了责,合起来却没迎来一个圆满的结果。 这看着像终于有人给行业踩了脚刹车,其实不是。一个模型上线三天就被一道命令叫停,恰恰说明没人肯自己慢下来,才轮到外头动手。要是公司、安全研究者、客户和美国政府之间真有一套坐下来一起减速的办法,事情走不到国家安全一刀切这一步。何况这一刀切下去,停的只有 Anthropic 一家,别人都还在跑。 Fable 这三天不是行业开始减速的证据,是没人能让它好好减速的证据。 刹车也能成为竞争力 Fable 5 从一开始就是个折中的产物。 Anthropic 手里真正锋利的模型是 Mythos。它没有公开就是因为能力太强了。2026 年 4 月,公司通过 Project Glasswing 把 Mythos 的预览版交给一批安全机构,让他们拿去找漏洞。 找漏洞这件事,本来就难分善恶。同一个能力,找出来是为了把洞补上,还是为了顺着洞钻进去,取决于拥有这个能力的是谁。 可 Anthropic 终究也在这个每天都加速一点的赛道上。到了 6 月,它还是把这类能力推向了公众。Fable 是 Mythos 的安全版本,高风险的请求会退回到更受限的 Opus 4.8,上线前做过红队测试,流量留存三十天,方便发现有人越狱。它同时还是一件商品,有定价,有客户评测,有试用期,要卖钱,要在投资人眼里好看。 安全做成竞争力,这本身就是个拧巴的事。竞争力的意思是跑得比别人快,安全的意思是别跑太快。Anthropic 想让这两件事同时成立,可怎么同时成立,它自己到今天大概也没太想明白。 创始人 Dario Amodei 做过 OpenAI 的研究副总裁,Anthropic 的一批创始成员也是从 OpenAI 出来的。他们见过模型一代代变强时人有多兴奋,也知道那股兴奋底下压着什么。 OpenAI 后来的事可以拿来做参照。Altman 被解雇,五天后又回来,反过来把董事会重组了。Superalignment 团队成立时说四年解决安全问题,可不到一年就解散了。 Anthropic 是那场风波之后长出来的另一个答案。它说,强大的模型我们也要造,但要把刹车写进制度里。负责任扩展政策到 2026 年已经更新到 3.0,按安全等级给模型分级。他们说,技术在指数式地飞速发展,定规矩的世界还没追上来,所以政府应该有权拦住危险的部署。 一边自己造模型,一边主动说政府该有权拦模型。这背后得有一种信念,你得相信那只大手会谨慎地用权,会走程序。这种立场,我原先是有几分敬重的。可 Fable 的三天,说明了这份信念有多不靠谱。 今年年初,Anthropic 就和五角大楼为 Claude 的军事用途吵过一架。它做了 Claude Gov 给美国政府客户用,但拒绝大规模的国内监控,也拒绝没人盯着的致命自主武器。 在它看来,这是责任的边界。在国家安全那套体系看来,边界本身就是麻烦,因为边界意味着你不肯完全服从。 Anthropic 说的安全,是不要失控。国家安全体系说的安全,是一切都能掌控。 连刹车是什么都谈不拢,谁还谈得上证明自己担得起责任。Anthropic 很快发现自己证明不了,因为光靠自己不行。 不能停,也不敢停 6 月初,Anthropic 提了一个想法,前沿实验室也许得协调着一起放慢,甚至一起暂停,给社会和政策留出追上来的时间。 协调。 为什么非得协调。因为一家公司自己慢下来,世界不会因此更安全。Anthropic 停了,OpenAI 不一定停,Google 不一定停,资本市场绝不会停。 所以一个人单方面克制,在这种局面里算不上什么美德。先停下来的那个,不会被记住,只会被顶替。 Anthropic 的问题,从来不是要不要负责。它很清楚自己要负责。真正的问题是,在别人未必负责的时候,一个人到底能负到哪一步。 过去的工业事故再复杂,总归能找到一个相对清楚的源头。可前沿 AI 不是这样。一个模型的能力,来自算力,来自论文,来自开源社区,来自投资人催着增长,也来自国家想要技术上的优势。每一块都能撇清自己,说做决定的不是我。可这些块拼到一起,就把世界推到了今天这一步。 责任拆散了,加速度还能保持住。 Anthropic 一边在政策文件里写 AI 跑得太快、治理跟不上,一边发布新模型。 我并不是想说 Anthropic 是虚伪的。Anthropic 早就不是那个靠理想主义就能活下去的小实验室了。它得跟 OpenAI、Google、xAI 抢,得应付融资和 IPO 的预期。硅谷嘴上都很敬重安全,可真到掏钱下注的时候,看的还是谁的模型更强。 所以它只能把事情拆成两半。自己能做的,先做起来。需要整个行业一起做的,另外列出来,等别人。 务实,也无奈。 Fable 就生在这条夹缝里。车停不下来,那就给车装一套更复杂的刹车片。夹缝里逼出来的东西,注定两头都不讨好。 站在中间 Fable 上线之后,最先不满意的不是美国政府,是做安全的那批人。 IBM X-Force 的研究者 Chompie 说,Fable 会拒掉一大堆只是沾点边的安全请求,有时候让它读一篇博客都能触发。 安全护栏想分辨的是意图,可模型眼前只有语言和上下文。它分不清你掏出工具是要修门还是撬锁,索性把两种人一起拦下。 两天之后,一份报告递进了美国政府的房间,从那一刻起,这件事就不再是 Anthropic 自己评判自己的安全设计了。 Anthropic 反复强调一个时间差。发布之前,它几次知会过美国政府,美国政府没反对,甚至参与过发布前的测试,公司是拿到了部署许可的。三天之后,同一套系统忽然告诉它必须下架。 Anthropic 说,美国政府始终没给出具体的细节。它自己看过演示,觉得那不过是几个已知的、不算严重的漏洞,换别的公开模型一样做得到。一直到声明发出,美国政府拿出来的也只是口头上的说法。 这个模型,开发者不满意,美国政府也觉得不满意。Anthropic 站在中间,里外不是人。 Fable 这件事的背后是一整条不信任链的运行使然。一圈转下来,每一环都在防着上一环。到最后,社会也很难再相信,这里头还有谁真能把责任担起来。 e/acc 是一种气候 这个问题难就难在,每一方都觉得自己在负责,而且都说得通。每个人手里,都攥着一份局部的正当。 可怕的就在这儿。每个人都只为自己那一小块负责,加起来,却没有谁为整件事负责。责任被切成了碎片。公司内控,模型评测,出口管制,客户需求,国家竞争,投资回报,每一片都映出一点真的东西,没有哪一片映得出全部。 当连定义都统一不了,所有人唯一不会争的方向,就只剩一个「快」。 Effective accelerationism,缩写 e/acc,这几年成了一套挺鲜明的技术乐观主义。把技术往快里推,不用管监管、社会结构和伦理,相信进步能解决掉那些大问题。 不是每家公司都自称 e/acc,Anthropic 就更不会。可一种主张,从来不需要所有人认可就改变大环境。 能力上的竞赛,烧不完的算力,融资的时间表,国家之间的较劲,军方的需求,开发者对更强工具的饥渴。这些东西合在一起,就成了一种气候。有人不喜欢这种气候,可也得在里面过日子,跟所有人一样。 强如 Anthropic,是这个加速时代里少数几个反复念叨刹车的人,到头来还是得先证明自己跑得够快。 技术加速不需要一个坏人,它只需要每一个好人都觉得自己不能第一个停下来。 刹车一直都在 Fable 这件事就是把刹车交出去的代价。你盼着公权力介入,是因为行业的自律不够。可公权力不一定按你期待的方式运转。国家安全这台机器最熟练的动作不是协商,是封锁、许可和例外。 AI 早就不是一件能画清边界的技术了。当一个前沿模型同时嵌进商业、科研、国防和基础设施,还有谁有能力决定它不该被怎样用。 所有人都知道速度太快。可速度本身,已经成了活下去的条件。 一百多年前,也有过一次没人敢叫停的加速。 1914 年 8 月 1 日傍晚五点,德皇威廉二世下令全军总动员。命令刚发出去几分钟,伦敦来了一封电报,说只要德国不打法国,英国就能让法国置身事外。德皇大喜,他本来最怕两线作战,这下好了,全部兵力都能调去东边对付俄国。他转头对总参谋长小毛奇说,那我们就只往东打。 小毛奇说,办不到。 他给的理由是,一支上百万人的军队,怎么开拔、走哪条铁路、几点几分到哪个站台,全按计划排死了。这套时刻表是用整整一年磨出来的,磨好之后,一个字都改不了。 后来很多历史学家都讲过这个故事。讲的人多半把它当成一个关于机器的寓言,说现代战争的机器精密到了这个地步,连开机器的人都按不住。 可再后来,人们又翻出一件事。那套时刻表,其实是改得动的。铁路部门每年都演练怎么临时改线、改时间,东线的方案也一直备着。火车真要掉头,掉得过来。 也就是说,刹车一直都在。 那一夜真正发生的,不是没有刹车,是站在闸边上的那个人,一口咬定刹车碰不得。他没去问能不能改,他太确定不能改了。 于是火车继续一列列往西边开,把一场本来能关在三个国家之间的冲突,拖成了一场把整个欧洲都埋进去的大战。没有人想要这个结果。每个人当时都觉得,自己只是在做那件最该做、也最没法不做的事。 我之所以想起这列火车,是因为 AI 的加速也是这样一列已经发动的车。它不是哪个人造出来的,是算力、资本和国家的野心,一节一节挂上去,自己往前开。车上坐着所有人,每个人都在做手边最该做的事,火车还是一直往前开。 这是 AI 时代让我感不安的地方。危险不是没人看见,刹车也不是真的不存在。喊刹车的人就坐在车里,知道危险的人脚还踩在油门上。 这个行业最警惕的东西,往往就是它自己正在拼命造的那个东西。Fable 本该是个让所有人停下来看一眼的例子。可等我写完这些,新模型又发布了几个,都说自己最强。 愿意先踩刹车的人,一个都没有。 (来源:动察Beating)







扫码下载app 最新资讯实时掌握
