用安全换便利？Codex新功能能24小时读取屏幕

鞭牛士 2026-04-21 15:23

AIPress.com.cn报道

OpenAI今日在Codex中发布了一项名为Chronicle的重磅实验功能。

这项功能赋予了AI助理“视觉”与“长期记忆”，让它能够通过实时感知你的屏幕内容，彻底终结那些繁琐的背景信息交代。

简单来说，就是让AI能看到你的屏幕。

它如何改变你的工作方式？

在过去，如果你想让AI帮忙debug或者处理文档，这往往需要耗费大量精力去解释：“我正在看哪个网页”、“报错信息是什么”、“我在和谁聊天”。

而现在，Chronicle充当了AI的眼睛。当你问“为什么这个会失败？”时，AI不再需要你复读，它会直接调取最近的屏幕截屏，它能发现你正在看GitHub Action报错日志，并直接给出解决方案。

这种能力的提升不仅仅体现在处理当下的问题。随着时间的推移，Chronicle会学习并记住工作习惯：你习惯在Word里写初稿，还是在飞书上和团队同步进度？

当你下达一个模糊指令，比如“同步最新草稿并通知小王”时，它能从海量记忆中精准锁定具体的文档版本和联系人，实现从“命令式”到“意图识别”的跨越。

Codex在上周刚推出了Memories功能，可以跨会话记住用户的偏好和项目。而Chronicle是Memories的扩展，靠后台进程定期截屏、做 OCR、分析你正在用哪些工具，再把这些信息整理成记忆文件。

背后的技术逻辑与门槛

Chronicle通过在后台运行沙盒化的智能体来处理屏幕截图，提取文字与视觉特征，并将其转化为本地存储的Markdown记忆文件。

目前，该功能仅作为“研究预览版”向macOS平台的ChatGPT Pro用户开放，且需要授予系统级的“屏幕录制”与“辅助功能”权限。

由于涉及到极其严格的隐私政策，欧盟、英国及瑞士的用户暂时无法体验。

便利背后的代价

尽管它让AI变得更加灵活，但OpenAI官方也给出明确的警示：

1.算力消耗巨大：由于涉及频繁的图像识别处理，Chronicle会极快地耗尽速率配额。

2.隐私边界挑战： AI会捕捉屏幕上的一切敏感信息。虽然截图在本地存储6小时后会自动删除，且OpenAI官方承诺不将这些数据用于模型训练，但未加密的本地Markdown记忆文件仍可能被电脑上的其他程序读取。

3.安全风险升级：开启此功能后，提示词注入攻击的风险会显著增加。如果浏览了一个带有恶意指令的网页，AI可能会被这些视觉内容带节奏，进而执行非预期的操作。

同行的动作

事实上，AI读取屏幕这一方向不算新鲜。微软的Recall在Windows上实验了一年多，像Cursor这类热门IDE也在探索类似的上下文补齐技术。

然而，真正把这一逻辑做成一套持续运行的后台Agent，并且能够自动沉淀并更新长期记忆，再直接塞进一个命令行编程工具里，OpenAI的这种整合路径目前在业内尚属首创。

字节跳动前段时间开源了一个叫MineContext的项目，思路和Chronicle非常接近，同样基于屏幕截图和内容理解，能看懂用户的数字环境，并主动推送洞察、日周总结、待办和活动记录。

不同的是，MineContext不依附于某个开发工具，而是作为独立的主动式AI伙伴存在，未来还打算接入文档、视频、代码、外部应用数据等更多来源。它和computer use的关系也被不少人提到，本质上是同一类主动感知场景，只是切入点不同。

其实这本身有一个更普通的对应物，就是AI眼镜。

定时拍照、提取信息、帮助回溯物理世界里发生过的事，逻辑和Chronicle读屏是一样的，只不过一个盯着数字世界，一个盯着现实世界。

随着这类产品越来越多，“让AI持续感知你的环境并积累记忆”正在从一个概念变成一类具体产品。

然而，当AI需要24小时盯着用户的屏幕和生活时，隐私安全成为了最敏感的红线。

不少开发者直言，对于这种全天候监控的应用，只有走本地化和开源路线才能让人产生信任。这也正是最近凭借一条Launch Video走红的开源项目Omi备受推崇的原因。

Omi的口号是：“一个你比第一大脑更值得信任的第二大脑”。作为一个完全开源的项目，Omi能够实时捕捉并转录屏幕内容与对话，自动生成摘要和行动项。

无论是桌面端、手机端还是可穿戴设备，Omi都能无缝运行。其核心价值在于构建一个能够记住用户所有所见所闻的AI交互系统，同时将数据的掌控权彻底交还给用户。

Chronicle的截图处理后不留服务器、记忆文件存在本地，是OpenAI在隐私层面做出的让步。但和完全开源的方案相比，这中间仍然存在一道清晰的信任门槛。（转载自：AI普瑞斯）

扫码下载app 最新资讯实时掌握

OpenAI