×
加载中...
Anthropic创始人长文洞见:比模型升级更紧急的是AI可解释性,否则人类或被AI欺骗和取代
Z Fincace 2025-05-23 16:01
在 2025 年 5 月 22 日的开发者大会上,Anthropic 发布了最新一代混合推理大模型系列 Claude 4,其中包括高端版本 Claude Opus 4 与普及型 Claude Sonnet 4。

作为Anthropic联合创始人兼首席执行官,Dario Amodei的职业生涯堪称AI发展史的缩影。这位普林斯顿大学物理学博士早年先后在谷歌大脑、斯坦福大学医学院及百度从事前沿研究,后于OpenAI担任研究副总裁期间主导了GPT-2与GPT-3的架构设计。2019年创立Anthropic后,他带领团队将技术重心转向AI安全与可解释性研究,其提出的"宪法AI"框架已成为行业标准。

在其 2025 年 4 月发表的文章《The Urgency of Interpretability》中,Amodei 提出,当下 AI 技术高速迭代,只有同步加速对模型内部机理的“核磁共振”式解读,才能在强大模型出现前及时掌握其风险与能力。他指出,近期在机械可解释性领域取得的神经元特征与“电路”识别突破,已让我们有机会揭开 AI 系统的黑箱面纱,但必须立即行动,否则模型可能在尚未可控时就获得压倒性力量。Amodei 呼吁研究者、企业与政策制定者共同加速可解释性研究、建立透明测试框架,以确保我们能够主动“驾驶”这辆不可阻挡的技术巨轮,朝着对社会有益的方向前进。以下是全文翻译。

在我研究人工智能的十年里,我见证了它从一个小小的学术领域发展成为世界上最重要的经济和地缘政治问题。在这段时间里,我学到的最重要的一课也许是:底层技术的进步是不可阻挡的,受到强大到无法阻挡的力量驱动,但进步的方式——事物构建的顺序、我们选择的应用程序以及如何将其推广到社会的细节——都是完全可以改变的,而且通过改变,有可能产生巨大的积极影响。我们无法阻止这趟旅程,但我们可以驾驶它。过去我曾写过关于以对世界有益的方式部署人工智能的重要性,以及如何确保民主国家先于其他国家建立和运用这项技术在过去的几个月里,我越来越关注掌控局面的另一个机会:最近的一些进展所带来的诱人的可能性,即我们可以在模型达到压倒性的力量之前成功实现可解释性- 即理解人工智能系统的内部工作原理。

业内人士常常惊讶地发现,我们并不了解自己创造的人工智能是如何运作的。他们的担忧并非杞人忧天:这种缺乏理解的情况在科技史上几乎是史无前例的。多年来,我们(包括 Anthropic 和整个人工智能领域)一直在努力解决这个问题,希望创造出一种类似于高精度磁共振成像(MRI)的设备,从而全面揭示人工智能模型的内部运作。这个目标常常让人感觉遥不可及,但最近的多项突破让我相信,我们正走在正确的轨道上,并拥有真正的成功机会。

与此同时,人工智能领域整体上比我们在可解释性方面的努力更进一步,而且其本身发展非常迅速。因此,如果我们希望可解释性能够及时成熟并发挥作用,就必须迅速行动。这篇文章探讨了可解释性的意义:它是什么,为什么有了它,人工智能会发展得更好,以及我们所有人可以做些什么来帮助它赢得这场竞争。

无知的危险

现代生成式人工智能系统的不透明性与传统软件有着根本的区别。如果一个普通的软件程序执行了某些操作(例如,电子游戏中的角色说了一句台词,或者我的外卖应用程序允许我给司机小费),它之所以这样做,是因为人类专门编写了这些程序。生成式人工智能完全不是这样。当生成式人工智能系统执行某些操作(例如,总结一份财务文件)时,我们无法在具体或精确的层面上了解它为什么做出这样的选择——为什么它会选择某些词而不是其他词,或者为什么它偶尔会犯一些通常很准确的错误。

正如我的朋友兼联合创始人克里斯·奥拉(Chris Olah)常说的那样,生成式人工智能系统的构建与其说是构建的,不如说是“自然生成的”——它们的内部机制是“涌现的”,而非直接设计的。这有点像培育植物或细菌菌落:我们设定了引导和塑造生长的高级条件1,但最终呈现的具体结构是不可预测的,难以理解或解释。纵观这些系统,我们看到的是包含数十亿个数字的庞大矩阵。它们在某种程度上正在计算重要的认知任务,但它们的具体实现方式尚不明确。

与生成式人工智能相关的许多风险和担忧最终都是这种不透明性造成的,如果模型可解释,这些风险和担忧将更容易解决。例如,人工智能研究人员经常担心失调的系统可能会采取其创建者无意采取的有害行动。我们无法理解模型的内部机制,这意味着我们无法有效地预测此类行为,因此很难排除它们;事实上,模型确实会表现出意想不到的涌现行为,尽管这些行为尚未引起人们的严重担忧。更微妙的是,同样的不透明性使得我们难以找到确凿的证据来支持这些风险的大规模存在,从而难以争取支持来解决这些风险——事实上,我们也很难确切地知道它们的危险程度。

为了应对这些一致性风险的严重性,我们必须比现在更清晰地洞察人工智能模型内部。例如,一个主要担忧是人工智能欺骗或权力追求。人工智能训练的本质决定了人工智能系统可能会自行发展出欺骗人类的能力和追求权力的倾向,而这是普通确定性软件永远无法做到的;这种涌现性也使得检测和缓解此类发展变得困难2。但同样,我们从未在现实世界中看到任何确凿的证据证明存在欺骗和权力追求3 ,因为我们无法“当场抓住模型”思考权力欲望和欺骗性思维。我们剩下的只是一些模糊的理论论证,认为欺骗或权力追求可能会在训练过程中出现,有些人觉得这些论证非常有说服力,而另一些人则觉得它们难以令人信服。说实话,我理解这两种反应,这或许可以解释为什么关于这种风险的争论会变得如此两极分化。

同样,对人工智能模型滥用的担忧是基于这样一种观点——例如,它们可能帮助恶意用户制造生物或网络武器,其方式远超当今互联网上所能找到的信息——:很难可靠地阻止模型获取危险信息或泄露其所掌握的信息。我们可以给模型设置过滤器,但“越狱”或欺骗模型的方法却层出不穷,而发现越狱存在的唯一方法就是通过经验找到它。如果我们能够窥探模型内部,我们或许能够系统地阻止所有越狱行为,并确定模型所掌握的危险知识。

人工智能系统的不透明性也意味着它们在许多应用中根本无法使用,例如高风险的金融或安全关键设置,因为我们无法完全限制它们的行为,少数错误可能会非常有害。更好的可解释性可以大大提高我们设定可能错误范围界限的能力。事实上,对于某些应用而言,我们无法看到模型内部的事实实际上是其采用的法律障碍——例如在抵押贷款评估中,法律要求决策是可解释的。同样,人工智能在科学方面取得了长足的进步,包括改进对 DNA 和蛋白质序列数据的预测,但以这种方式预测的模式和结构通常难以被人类理解,并且不会带来生物学见解。过去几个月的一些研究论文明确指出,可解释性可以 帮助我们理解这些模式。

不透明性还会带来其他更奇特的后果,例如,它会抑制我们判断人工智能系统是否具备(或将来可能具备)感知能力,以及是否值得享有重要权利的能力。这是一个相当复杂的话题,我不会详细讨论,但我认为它在未来会变得很重要。5

机械可解释性简史

出于上述所有原因,弄清楚模型的思维方式和运作方式似乎是一项至关重要的任务。几十年来,传统观点认为这是不可能的,模型是难以捉摸的“黑匣子”。我无法完整描述这种转变的过程,而且我的观点不可避免地会受到我在谷歌、OpenAI 和 Anthropic 的亲身经历的影响。但 Chris Olah 是第一批尝试真正系统地研究黑匣子并理解其所有组成部分的人之一,这个领域后来被称为机械可解释性。Chris 最初在谷歌从事机械可解释性研究,后来在 OpenAI 工作。当我们创立 Anthropic 时,我们决定将其作为新公司发展方向的核心部分,并且至关重要的是,我们将其重点放在法学硕士(LLM)上。随着时间的推移,该领域不断发展壮大,现在包括几家大型人工智能公司的团队,以及一些专注于可解释性的公司、非营利组织、学术机构和独立研究人员。简要总结一下该领域迄今为止取得的成就,以及如果我们想应用机械可解释性来解决上述一些关键风险,还需要做哪些工作,这将很有帮助。

机械可解释性的早期阶段(2014-2020 年)专注于视觉模型,并能够识别模型中一些代表人类可理解概念的神经元,例如“汽车检测器”或“车轮检测器”,类似于早期的神经科学假设和研究,这些假设和研究表明,人类大脑具有与特定人或概念相对应的神经元,通常被称为“詹妮弗·安妮斯顿”神经元(事实上,我们发现的神经元与人工智能模型中的神经元非常相似)。我们甚至能够发现这些神经元是如何连接的——例如,汽车检测器会寻找在汽车下方触发的车轮检测器,并将其与其他视觉信号相结合,以确定它所看到的物体是否确实是汽车。

当克里斯和我离开去创办 Anthropic 时,我们决定将可解释性应用于新兴的语言领域,并于 2021 年开发了一些必要的基本数学基础软件基础设施。我们立即在模型中发现了一些基本机制,这些机制完成了解释语言所必需的操作:复制和顺序模式匹配。我们还发现了一些可解释的单个神经元,类似于我们在视觉模型中发现的,它们代表着各种单词和概念。然而,我们很快发现,虽然一些神经元可以立即解释,但绝大多数都是许多不同单词和概念的不连贯的拼凑物。我们将这种现象称为叠加7我们很快意识到这些模型可能包含数十亿个概念,但却以一种我们无法理解的混乱方式存在。该模型使用叠加,因为这允许它表达比神经元更多的概念,从而使它能够学习更多。如果叠加看起来纠结且难以理解,那是因为,一如既往,人工智能模型的学习和操作并没有针对人类可读性进行丝毫优化。

解释叠加的困难一度阻碍了进展,但最终我们发现(与其他人同时发现),一种名为稀疏自编码器的信号处理现有技术可用于找到与更清晰、更人类可理解的概念相对的神经元组合。这些神经元组合可以表达的概念比单层神经网络表达的概念要微妙得多:它们包括“字面上或比喻上模棱两可或犹豫不决”的概念,以及“表达不满的音乐类型”的概念。我们将这些概念称为特征,并使用稀疏自编码器方法将它们映射到各种规模的模型中,包括现代最先进的模型。例如,我们能够在一个中型商业模型(克劳德 3 首十四行诗)中找到超过 3000 万个特征。此外,我们采用了一种名为自动解释性的方法——它使用人工智能系统本身来分析可解释性特征——来扩展不仅找到特征的过程,而且列出并识别它们在人类语言中的含义。

发现并识别3000万个特征是向前迈出的重要一步,但我们相信,即使是一个小型模型,也可能包含十亿甚至更多的概念,因此我们目前发现的只是可能存在的一小部分,并且我们仍在朝着这个方向努力。更大的模型,例如Anthropic最强大的产品中使用的模型,则更加复杂。

一旦找到一个特征,我们能做的不仅仅是观察它的实际作用——我们可以增加或减少它在神经网络处理过程中的重要性。可解释性的核磁共振成像(MRI)可以帮助我们开发和改进干预措施——几乎就像精确地电击某人的大脑某个部位一样。最令人难忘的是,我们用这种方法创建了“金门克劳德”,这是 Anthropic 模型的一个版本,其中“金门大桥”的特征被人为放大,导致模型对这座桥着迷,甚至在不相关的对话中也会提到它。

最近,我们从追踪和操纵特征转向追踪和操纵我们称之为“电路”的特征组。这些电路展示了模型思考的步骤:概念如何从输入词中出现,这些概念如何相互作用形成新概念,以及它们如何在模型中工作以产生动作。通过电路,我们可以“追踪”模型的思维。例如,如果你问模型“达拉斯所在州的首府是哪里?”,有一个“位于”电路会导致“达拉斯”特征触发“德克萨斯”特征的触发,然后有一个电路导致在“德克萨斯”和“首府”之后触发“奥斯汀”。尽管我们只通过手动过程找到了少量电路,但我们已经可以用它们来了解模型如何推理问题——例如,它如何在写诗时提前计划押韵,以及如何跨语言共享概念。我们正在研究自动查找电路的方法,因为我们预计模型中有数百万个电路以复杂的方式相互作用。

可解释性的实用性

所有这些进展,虽然在科学上令人印象深刻,但并没有直接回答我们如何利用可解释性来降低我之前列出的风险的问题。假设我们已经识别出一堆概念和回路——甚至假设我们了解所有这些概念和回路,并且能够比现在更好地理解和组织它们。那又怎样?我们如何利用所有这些?从抽象理论到实际价值仍然存在差距。

为了弥补这一差距,我们开始尝试使用可解释性方法来发现和诊断模型中的问题。最近,我们做了一个实验,让一个“红队”故意在模型中引入一个对齐问题(例如,模型倾向于利用任务中的漏洞),并让不同的“蓝队”找出模型的问题所在。多个蓝队成功了;尤其值得注意的是,其中一些蓝队在调查过程中有效地运用了可解释性工具。我们仍然需要扩展这些方法,但这次实验帮助我们积累了一些使用可解释性技术来发现和解决模型缺陷的实践经验。

我们的长期愿望是能够观察最先进的模型,并对其进行“脑部扫描”:这种检查很有可能发现各种各样的问题,包括撒谎或欺骗的倾向、权力欲、越狱缺陷、整个模型的认知优势和劣势等等。然后,这将与各种训练和调整模型的技术结合使用,有点像医生通过 MRI 诊断疾病,然后开药治疗,然后再做一次 MRI 来观察治疗进展,等等8 。我们如何测试和部署最强大的模型(例如,我们负责任的扩展策略框架中 AI 安全级别 4 的模型)的一个关键部分很可能是通过执行和形式化此类测试。

我们能做什么

一方面,最近的进展——尤其是在电路和基于可解释性的模型测试方面的成果——让我感到我们即将在很大程度上突破可解释性。尽管我们面临的任务艰巨,但我看到了一条通往可解释性的现实道路,那就是成为一种复杂而可靠的方法,用于诊断即使是非常先进的人工智能中的问题——真正的“人工智能核磁共振成像”。事实上,按照目前的发展轨迹,我坚信可解释性将在5到10年内达到这一水平。

另一方面,我担心人工智能本身发展太快,我们可能连这么长的时间都没有。正如我在其他地方所写,我们最早可能在2026年或2027年就拥有相当于“数据中心里的天才国家”的人工智能系统。我非常担心在缺乏更好的可解释性的情况下部署这样的系统。这些系统将对经济、技术和国家安全至关重要,并且将拥有高度的自主性,以至于我认为人类完全不了解它们的工作原理是不可接受的。

因此,我们正处于一场可解释性与模型智能之间的竞赛中。这并非一场全有或全无的竞赛:正如我们所见,可解释性的每一次进步都会量化地提升我们洞察模型内部并诊断其问题的能力。我们取得的此类进步越多,“数据中心里的天才之国”走向繁荣的可能性就越大。人工智能公司、研究人员、政府和社会可以通过以下几种方式来扭转乾坤:

首先,企业、学术界或非营利组织的人工智能研究人员可以通过直接研究可解释性来加速其发展。与层出不穷的模型发布相比,可解释性受到的关注较少,但它无疑更为重要。在我看来,现在正是加入该领域的理想时机:最近的“电路”研究成果开辟了许多并行发展方向。Anthropic 正在加倍投入可解释性研究,我们的目标是到 2027 年实现“可解释性能够可靠地检测大多数模型问题”。我们也在投资可解释性初创公司

但如果整个科学界都参与其中,成功的机会就会更大。其他公司,例如谷歌 DeepMindOpenAI,也有一些可解释性方面的努力,但我强烈建议他们投入更多资源。如果有帮助的话,Anthropic 将尝试将可解释性应用于商业领域,以创造独特的优势,尤其是在那些能够为决策提供解释能力的行业。如果你是竞争对手,并且不希望这种情况发生,那么你也应该在可解释性方面投入更多资金!

可解释性对于学术界和独立研究人员来说也是天作之合:它具有基础科学的特色,其中许多部分无需大量计算资源即可进行研究。需要明确的是,一些独立研究人员和学者确实在研究可解释性,但我们需要更多9。最后,如果您身处另一个科学领域并正在寻找新的机会,可解释性可能是一个很有前途的选择,因为它提供了丰富的数据、令人兴奋的新兴方法以及巨大的现实世界价值。神经科学家尤其应该考虑这一点,因为收集人工神经网络数据比收集生物神经网络数据容易得多,而且其中一些结论可以应用到神经科学中。如果您有兴趣加入 Anthropic 的可解释性团队,我们有开放的研究科学家研究工程师职位。

其次,政府可以采用宽松的规则来鼓励可解释性研究的发展,并将其应用于解决前沿人工智能模型的问题。鉴于“人工智能核磁共振成像”(AI MRI)的实践尚处于萌芽阶段且发展不成熟,监管或强制公司进行此类研究的理由显而易见,至少在现阶段是如此:甚至连未来的法律应该要求公司做什么都尚不明确。但是,要求公司透明地披露其安全保障实践(负责任的扩展政策,简称 RSP 及其执行情况),包括他们如何在发布前使用可解释性测试模型,这将使公司能够相互学习,同时也能明确哪些公司的行为更负责任,从而促进“竞相争先”。我们在回复加州前沿模型工作组(该工作组本身也提到了一些类似的想法)时,提出了将安全/保障/RSP 透明度作为加州法律的一个可能方向。这一理念也可以在联邦政府或其他国家推广。

第三,政府可以利用出口管制创建一个“安全缓冲区”,以便在我们实现最强大的人工智能之前,给可解释性技术更多的发展时间。长期以来,我一直支持对其他国家实施芯片出口管制,因为我相信民主国家必须在人工智能领域保持领先于其他国家。但这些政策还有一个额外的好处。如果美国和其他民主国家在接近“数据中心天才之国”的过程中,在人工智能领域拥有明显的领先优势,我们或许可以“利用”其中的一部分优势,在迈向真正强大的人工智能之前,确保可解释性技术10 的基础更加稳固,同时仍然击败我们的对手11。我相信有效且执行良好的出口管制可以给我们带来1到2年的领先优势,这也可能意味着当我们达到变革能力水平时,“人工智能核磁共振成像”能否发挥作用。一年前,我们无法追踪神经网络的思维,也无法识别其中的数百万个概念;而今天,我们可以了。相比之下,如果美国和其他国家同时实现强大的人工智能(我预计在没有出口管制的情况下就会发生这种情况),地缘政治激励将使任何放缓基本上不可能发生。

所有这些——加速可解释性发展、宽松的透明度立法以及对其他国家的芯片出口管制——本身都是好主意,几乎没有什么实质性的负面影响。无论如何,我们都应该全部实施。但当我们意识到,这些措施可能会决定可解释性问题的解决是在强大的人工智能出现之前还是之后时,它们就变得更加重要了。

强大的人工智能将塑造人类的命运,在它们彻底改变我们的经济、生活和未来之前,我们有权了解我们自己的创造。(转载自:Z Fincace)

脚注

1. 就植物而言,这些因素包括水、阳光、指向特定方向的棚架、植物种类的选择等。这些因素大致决定了植物的生长位置,但其确切形状和生长模式则无法预测,即使长大之后也很难解释。就人工智能系统而言,我们可以设定基本架构(通常是Transformer的某种变体)、它们接收的数据类型以及用于训练它们的高级算法,但模型的实际认知机制是从这些成分中有机产生的,而我们对它们的理解很差。事实上,在自然界和人工世界中,有许多系统的例子,我们只能在原理层面理解(有时也能控制),但无法在细节层面理解:经济体、雪花、细胞自动机、人类进化、人脑发育等等。

2. 当然,你可以尝试通过与模型简单交互来检测这些风险,我们在实践中也这样做过。但由于欺骗正是我们试图发现的行为,外部行为并不可靠。这有点像通过询问某人是否是恐怖分子来判断他是否是恐怖分子——这并非一定无用,你可以通过他们的回答方式和言论来了解情况,但显然不可靠。

3. 我可能会在以后的文章中更详细地描述这一点,但有很多实验(其中许多是由 Anthropic 完成的)表明,当模型的训练以某种人为的方式引导时,它们在某些情况下可能会撒谎或欺骗。也有证据表明,现实世界中的行为看起来有点像“考试作弊”,尽管这种行为比危险或有害的程度更堕落。没有证据表明危险行为以更自然的方式出现,也没有证据表明存在为了获得对世界的权力而撒谎和欺骗的普遍倾向或意图正是在后一点上,了解模型内部可能会有很大帮助。

4. 至少在 API 服务模型中是如此。开放权重模型存在额外的危险,因为护栏很容易被轻易剥离。

5. 简而言之,可解释性与人工智能感知和福祉的关注点可能以两种方式交织在一起。首先,虽然心灵哲学是一个复杂且充满争议的话题,但哲学家们无疑会受益于对人工智能模型中实际情况的详细阐述。如果我们认为它们只是肤浅的模式匹配器,那么它们似乎不太可能值得道德考量。如果我们发现它们执行的计算与动物甚至人类的大脑相似,这可能是支持道德考量的证据。其次,或许也是最重要的一点,如果我们得出结论,认为人工智能模型的道德“耐心”足以值得采取行动,那么可解释性将发挥何种作用。对人工智能进行严肃的道德考量不能相信它们的自我报告,因为我们可能会意外地训练它们假装没事。在这种情况下,可解释性将在决定人工智能的福祉方面发挥至关重要的作用。(事实上,从这个角度来看,已经出现了一些略显令人担忧的迹象。

6. 例如,以某种方式分解和理解人工神经网络内部计算的想法可能早在70多年前神经网络发明之初就已模糊地存在,而各种旨在理解神经网络特定行为机制的努力也几乎同样存在了很长时间。但克里斯的独特之处在于,他提出并认真地致力于全面理解神经网络所做的一切。

7. 叠加的基本概念由Arora等人于 2016 年提出,更广泛地说,可以追溯到压缩感知领域的经典数学研究。叠加可以解释不可解释的神经元,这一假设可以追溯到早期关于视觉模型的机械可解释性研究。此时发生的变化是,很明显,叠加将成为语言模型的核心问题,比视觉模型更严重。我们能够提供强有力的理论基础,确信叠加是值得追求的正确假设。

8. 可以这么说,可解释性应该像模型对齐的测试集一样发挥作用,而传统的对齐技术(例如可扩展监督、RLHF、体质 AI 等)应该充当训练集。也就是说,可解释性作为模型对齐的独立检查,不受训练过程的影响,训练过程可能会激励模型看似对齐,但实际上并非如此。这种观点的两个后果是:(a) 我们应该非常犹豫是否在生产中直接训练或优化可解释性输出(特征/概念、电路),因为这会破坏其信号的独立性;(b) 重要的是不要在一次生产运行中多次“使用”诊断测试信号来通知训练过程的变化,因为这会逐渐将有关独立测试信号的信息泄露给训练过程(尽管比 (a) 慢得多)。换句话说,我们建议在评估官方的高风险生产模型时,我们对待可解释性分析就像对待隐藏的评估或测试集一样谨慎。

9. 奇怪的是,机械论可解释性有时似乎在学术界遭遇了巨大的文化阻力。例如,有报道称,一个非常受欢迎的机械论可解释性 ICML 会议研讨会似乎以借口被拒绝,这让我感到担忧。如果属实,那么在人工智能学者们正在寻找保持相关性的方法之际,这种行为既短视又适得其反。

10. 当然,还有其他降低风险的技术——我并不是说可解释性是我们唯一的风险缓解工具。

11. 事实上,鉴于人工智能巨大的经济价值,我甚至怀疑即使是民主国家的公司,为了应对风险而放慢速度的可能性。像这样与市场正面交锋,感觉就像试图用脚趾阻止一列货运列车。但如果真的出现了关于自主人工智能危险的令人信服的证据,我认为这几乎是不可能的。与倡导者的说法相反,我认为如今并不存在真正令人信服的证据,实际上,我认为最有可能提供“确凿证据”证明危险的途径是可解释性本身——这也是投资它的另一个理由!

扫码下载app 最新资讯实时掌握