浏览器秒变手机！中科院开源Agent训练场，微信、原神都能跑

新智元 2026-06-02 14:06

让AI像人一样操作手机，是过去一年最火的赛道之一。

填表单、回消息、预订车票，甚至帮你刷小红书——Mobile GUI Agent（手机图形界面智能体）的目标，就是只看屏幕截图，就能像真人一样把手机玩明白。

可一个尴尬的现实是：这帮Agent在日常手机环境里到底有多强、要怎么练得更强，几乎没人能可靠地说清楚。

问题不在模型，在它们脚下的那片「地」——既没有靠谱的考场，也没有便宜的训练场。

想训练、评测手机Agent

怎么就这么难？

要训练、评测手机Agent，你总得有个能跑微信、支付宝的环境。可现实是，能跑真实日常App的，只有模拟器和真机两条路，而且条条都是坑。

第一条路，安卓模拟器。

它其实装得上微信、支付宝——但App的风控一眼就认出模拟器这种「非常规环境」，轻则闪退、运行不稳，重则直接封号。根本没法稳定地拿来做评测。所以这类环境往往只能退守计算器、设置这类系统工具和开源App，最高频的国民级App反而碰不得。

更何况它还「重」：一个实例动辄吃掉 4.5GB 以上内存，想大规模并行训练？那就是赤裸裸地烧钱。

第二条路，真机。

真手机够稳、够真。可代价是——想并行就得买上百台手机、养一堆真实账号，真金白银地砸；而且一台手机一次只能跑一个任务，吞吐低到感人。

更要命的是，真机连「并行 rollout」都做不到。 像GRPO这类常用 RL 算法，要求从同一个初始状态并行拉出一整组轨迹来对比好坏，可你手上就一个微信号，克隆不出 N 份内容、好友、余额完全一样的副本——「从同一状态分身出几十条轨迹」这种训练刚需，真机上根本无从谈起。

而最致命的死结，两条路都躲不掉：只要登的是真实账号，操作就是玩真的。

真转账就是真扣钱，真购票就是真下单。更麻烦的是跑完之后想复位——

哪怕只是改了个设置、点错个关注，想还原，也得靠人工、或让Agent反向操作一步一步抠回去，繁琐又容易出错；
转账、注销这种彻底不可逆的操作，反向操作都救不回来。

一个任务测一遍，环境就「脏」了。可复现、可批量的训练和评测，从根上就立不住。

对于评测也只能退而求其次——让另一个大模型看截图来当裁判。可这种「VLM当judge」主观、易误判、还难以审计。后面会看到，它的误判率高达 10.2%。

说到底，这一切的根源只有一个：日常App的内部状态，天生就读不到、没法改、也复制不了。

换个脑回路：Agent只看截图

那我只在「像不像」上较真

中科院团队的破局思路，堪称「四两拨千斤」。

既然真实 App 的状态读不到、改不回、也复制不了——那干脆别在真机上死磕了：索性自己在浏览器里造一个仿真的安卓世界。在这个世界里，所有状态都由我们说了算，想读就读、想改就改、想复制就复制，前面那三道坎瞬间清零。

唯一的疑问是：这么「造」出来的东西，Agent 会不会一眼就看穿「是假的」？

答案，藏在一个最朴素的事实里——GUI Agent 的眼里只有截图，手里只有点击。

那又何必去复刻像素级的安卓内核、复刻真实App背后的服务器后端？

只要点下去，界面给出对的反应、该变的状态真的变了，对Agent来说，这个世界就足够「真」了。

这就是论文中强调的核心——交互保真(interaction fidelity)。

于是 MobileGym 诞生了：一个完全跑在浏览器里的、轻量级安卓仿真环境。

团队硬是在浏览器里实现了一整套安卓运行时机制：任务栈、键盘、通知、权限流、intent路由、返回键派发……它覆盖了28个App（12个日常App + 16个系统App），微信、小红书、支付宝、B站、谷歌地图、12306、腾讯会议、微信读书、Spotify、Reddit、X、eBay全都在内，连主题切换、动态桌面小组件都做了。

▲ 28 个 App 全是独立仿真，日常主要 APP 类别几乎全部涵盖。

仿真到什么程度？直接上图感受一下——

▲ 微信：聊天列表、对话、底部 Tab 一比一还原。

▲ 小红书：双列瀑布流、点赞、底部导航，刷起来毫无违和感。

▲ 腾讯会议：加入/预定会议、会议列表，办公场景也照样覆盖。

顺带还有个有意思的细节：这个仿真出来的浏览器是 「真」能联网的——B 站评论区就有网友自己试了一把，挂上云原神直接在里面玩了起来，当场「原神，启动！」

▲ B 站网友实测截图：仿真浏览器里「原神，启动」。

玩出花的还不止一个，干脆有人在 MobileGym 里又打开了 mobilegym.dev——于是 MobileGym 里套了个 MobileGym，手机里开手机，一层接一层，活生生玩成了「俄罗斯套娃」。

▲ 套娃现场：MobileGym 的浏览器里又开了一个 MobileGym，手机里还有手机。

但真正的杀招，还藏在这套机制的底层。

一份JSON，把「读不到、改不回、复制不了」一次解决

MobileGym把整个环境的状态——App数据、系统设置、设备信息——全部用一份结构化JSON来表示。

正因为状态天生就是结构化的，前面那三个老大难，瞬间被逐一破解：

可读：程序直接读状态做确定性校验——余额、订单、设置项一览无余，彻底告别VLM看截图瞎猜；
可写：任意配置、一键重置到任何指定的初始状态；
可复制：毫秒级快照,从同一状态复制跑多条轨迹—— 真机克隆不出的"同状态分身"，这里一份状态拷贝就搞定， GRPO 要多少条给多少条。
零后果：改设置也好、转账注销也罢，跑完直接拿初始快照整个覆盖回去——不靠反向操作一步步抠，毫秒级满血复活，绝无真实代价。

一鱼两吃：同一套信号，既当考官，又当教练

到这里，MobileGym最妙的设计才真正浮出水面。

既然环境状态可读、可被程序精确判定，那这份「判定」就有了双重身份：

对评测而言，它是一张确定的成绩单——任务到底完没完成，程序说了算，不用大模型猜；
对训练而言，它就是一个现成的奖励信号(reward)——Agent做对了多少，直接拿来喂给强化学习。

换句话说，同一套可验证信号，既是评测的成绩单，又是训练的奖励——一套环境，考、练通吃。

其实「可验证环境的考练一体」本身并不稀奇：AndroidWorld、MobileWorld这些前辈，靠程序化验证同样能既评测又训练。真正的难关在于——它们只够得着文件管理、设置这类系统工具和简单开源 App，一旦面对微信、支付宝，这套一体化能力就彻底卡死。MobileGym 的突破，是用「仿真 + 结构化状态」，第一次把这套可验证的「考练一体」，延伸到了真正高频的日常 App 上。

而这还只是一半。另一半是「快」和「省」——

因为整个环境就是一份结构化JSON，复制一份状态 = 克隆一个完整环境。一个实例只占约400MB内存、3秒冷启动，一台服务器就能同时开几百个并行环境。训练要的海量rollout、评测要的批量跑分，统统不用再堆服务器。而且，每条轨迹的判定都是程序读状态、毫秒级出结果，连一遍遍调用又慢又贵的大模型当裁判都省了。

论文还算了一笔账：如果改用 VLM 当裁判，一次 256 题评测，GPT-5.4 约要 158 元；放到 96 万条轨迹量级的 RL 训练，光裁判 API 就可能烧到约 60 万元。而 MobileGym 的程序化判定，这部分成本是 0。

把「可验证的考练一体」搬上日常 App，再叠加轻到能单机大规模并行——这套组合，过去几年模拟器和真机两条路谁都没能凑齐。 它顺带成就的，是让微信、支付宝这类日常 App，第一次能被确定、可复现地打分。

下面，我们就分别看看，它当「考场」和「训练场」，到底有多猛。

先看考场：9个顶尖Agent同台，最强也才考了58.8分

团队配套放出的 MobileGym-Bench，堪称「史上最严手机Agent考场」。它有多硬？

416个参数化任务模板（256测试 + 160训练），横跨28个App；
每道题都不是死的，通过参数化实例化能衍生出 超过27000个不同实例，从根上防止模型「背答案」；
4个难度等级L1-L4，不是拍脑袋定的，而是用8个参考模型实测校准出来的；
就连「问答题怎么判分」都被重做了一遍。 传统评测靠字符串模糊匹配，经常闹笑话——意思对了却判错，或者Agent在思考里碰巧带出正确答案就被误判成功。MobileGym干脆让Agent在界面上填一张结构化的 「答题卡」，系统按字段类型（精确文本、数值、格式、选项）逐项核对，堵死了这种漏洞。而且这招还顺手治了 GUI 专用模型的一个老毛病——它们生来就是被训练去「点界面」的，你非让它按固定文本格式把答案规规矩矩吐出来，它常常不买账、格式乱套；而答题卡把「答题」变成了「填表单」，这恰恰是它的看家本行，于是反倒老老实实照做了。

然后，9个知名Agent模型被拉来同台竞技，结果集体被按在地上摩擦：

在最难的L4任务上，9个模型集体扑街，只有Gemini勉强保住21.9%。

这恰恰说明：这套考题区分度极强，既没被刷爆、也没难到全军覆没——是一把能真正照出手机Agent成色的好尺子。而得益于浏览器仿真的「轻」，256个并行实例，跑完整套256任务的评测，实测只要6分钟。

再看训练：一台机器顶一个机房，练完就能上真机

说MobileGym是「训练场」，绝非自封。

先说「省」到什么程度：此前有方案为了凑齐512个安卓模拟器实例做在线RL，动用了10台裸金属服务器、960个vCPU、3840GB内存。而在MobileGym上，团队用GRPO算法微调Qwen3-VL-4B 模型，一台服务器轻松开 96 个环境实例，并行跑 256 个环境实例也仅仅只需要 100G 内存。别人一个机房，这里一台机器。

再说效果：训练后，模型在测试集上的成功率从9.4%涨到22.2%（+12.8个百分点），实打实的提升。

但真正的考验是：模拟器里练出来的本事，搬到真手机上还管用吗？

团队把训练前后的模型，都搬到一台真实的红米手机上实测。

结果令人振奋：真机信号任务上，成功率从32.2%提升到72.9%（+40.7个百分点），95.1%的模拟训练增益，成功迁移到了真机！

在模拟世界里练的功夫，真机真能用。

还记得前面说的那个 10.2% 误判率吗？它正是从这组真机轨迹里、一条条人工复核抠出来的：118 条轨迹，让 Qwen3.6-Plus 当裁判，判错了 12 条。换个更强的模型行不行？团队真把 GPT-5.4 请来重判一遍——误判率还是 10.2%，只不过这回判错的换成了另一批任务。说白了，问题不在哪个模型不够强，而在「让大模型看截图当裁判」这条路本身就靠不住； MobileGym 用程序化状态校验，从源头就杜绝了这种误判。

USE指标：第一次抓出Agent「顺手作恶」

更妙的是，掌握了完整状态后，MobileGym还顺手解锁了一个别家给不了的「独家武器」——USE（意外副作用）指标。

设想一个场景：你让Agent帮你发条消息，它确实发了，任务「成功」了。但它有没有在你不知道的情况下，顺手错点了关注、错改了设置、甚至错发了另一条消息？

只靠大模型来看截图，很难发现得了。

而MobileGym能把任务前后的全环境状态做精确对比，任何任务之外的改动都无所遁形。实测发现，即便是成功率相近的开源模型，「作恶」概率也能相差近2倍。

这一点的价值远超评测本身。论文还专门测试了转账、注销、大批删除等高风险操作，发现前沿模型(Gemini 3.1 Pro)一旦被指令驱动，几乎「无脑」高成功率执行，毫无安全刹车。

也正因如此，这套「零后果 + 一键重置」的沙箱，天然成了AI安全对齐研究的理想试验田——让Agent在绝对安全的环境里，把危险动作先「演」一遍。

不是又一个Benchmark

而是一整套基础设施

回过头看，MobileGym真正的野心，从来就不是「再做一个更大的手机榜单」。

它把日常 App 的训练与评测——这件过去昂贵又难复现的事——收进了同一个可验证、可大规模并行的仿真世界：同一套状态，既是评测的成绩单，也是强化学习的奖励；同一台机器，既是几百场考试的考场，也是海量 rollout 的训练场。

当整个行业还在为「怎么可靠地训练和评测手机Agent」头疼时，这支国产团队，已经悄悄把那块最难啃的地基，稳稳地铺好了。