OpenAI 正在推出一款名为 ChatGPT 的全新通用 AI 代理,该公司表示,它可以代表用户完成各种基于计算机的任务。
OpenAI 表示,该代理可以自动浏览用户的日历,生成可编辑的演示文稿和幻灯片,并运行代码。
这款名为 ChatGPT 代理的工具融合了 OpenAI 之前代理工具的多项功能,包括Operator 在网站上点击的能力,以及Deep Research 将数十个网站的信息整合成一份简明研究报告的能力。
OpenAI 表示,用户只需使用自然语言输入 ChatGPT 即可与该代理进行交互。
ChatGPT 代理将于周四向 OpenAI Pro、Plus 和 Team 计划的订阅用户推出。要激活该工具,用户可以在 ChatGPT 的工具下拉菜单中选择代理模式。
ChatGPT 代理的推出代表了 OpenAI 迄今为止最大胆的尝试,旨在将 ChatGPT 打造成一款能够为用户采取行动和分担任务的代理产品,而不仅仅是回答问题。
近年来,包括 OpenAI、谷歌和 Perplexity 在内的硅谷公司已经推出了数十款承诺实现这一目标的 AI 代理。然而,这些早期版本的 AI 代理已被证明难以处理复杂任务,而且作为产品,它们似乎不如科技高管们所宣传的 AI 代理的终极愿景那么引人注目。
话虽如此,OpenAI 表示 ChatGPT 代理比其以前的产品功能强大得多。
该公司的新代理可以访问ChatGPT 连接器,允许用户连接 Gmail 和 GitHub 等应用程序,以便代理能够找到与你的提示相关的信息。OpenAI 表示,ChatGPT 代理可以访问终端,并且可以使用 API 访问某些应用程序。
OpenAI 建议用户利用 ChatGPT 代理“规划并购买食材,制作四人份日式早餐”,以及“分析三个竞争对手并制作幻灯片”。这些功能需要 ChatGPT 代理解析网站、规划行动方案并使用工具——这比 OpenAI 之前尝试用代理解决的任务要复杂得多。
OpenAI 表示,ChatGPT 代理所基于的模型在多个基准测试中提供了最先进的性能。
该公司表示,ChatGPT 代理模型在 Humanity 的 Last Exam(pass@1)考试中获得了 41.6% 的分数。这项考试难度极高,包含一百多个科目的数千道题目。这大约是 OpenAI 的 o3 和 o4-mini 在该测试中得分的两倍。
OpenAI 表示,在已知最难的数学基准测试之一 FrontierMath 上,ChatGPT 代理在能够使用工具(例如用于代码执行的终端)的情况下,得分可达 27.4%。此前的最高得分来自 o4-mini,得分仅为 6.3%。
OpenAI 指出,其在开发 ChatGPT 代理时始终将安全性放在首位,主要是因为该产品的一些新功能可能会使其在不法分子手中变得更加危险。OpenAI 此前曾警告称,代理模型可能会带来更危险的功能。
OpenAI 在 ChatGPT 代理的安全报告中表示,该模型在生物和化学武器领域被评定为高能力,OpenAI 的防范框架将其定义为具有放大现有严重危害途径能力的模型。
OpenAI 指出,目前尚无直接证据证明这一点,但已决定采取预防措施,并启动新的保障措施来降低这些风险。
ChatGPT 代理的新安全措施包括一个在用户与产品交互时实时运行的监视器。
OpenAI 表示,它会对输入 ChatGPT 代理的每个提示运行一个分类器,以确定该请求是否与生物学相关。如果是,OpenAI 会通过第二个监视器运行 ChatGPT 代理的响应,以确定该内容是否可能被用来引发生物威胁。
OpenAI 还表示,为了防止滥用,它已禁用 ChatGPT 代理的记忆功能。在 ChatGPT 的其他部分,OpenAI 的记忆功能允许聊天机器人引用之前用户聊天记录中的信息。
然而,OpenAI 表示,不法分子可能会利用 ChatGPT 代理中的该功能,通过快速注入攻击窃取敏感数据。不过,该公司表示,未来可能会重新考虑添加该功能。
ChatGPT 代理听起来令人印象深刻,但它在现实世界中的能力究竟如何还有待观察。迄今为止,代理技术在与现实世界交互时已被证明相对脆弱。
即便如此,OpenAI 表示,它已经开发出一种功能更强大的模型,能够兑现 AI 代理的承诺。
