刚刚！小米「天才少女」罗福莉发表新论文，直指AI Agent痛点

鞭牛士 2026-03-16 14:36

3月16日消息，小米AI实验室研究员罗福莉，也就是很多人口中的“天才少女”，又发论文了。

论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning。作者之一，就是罗福莉。

如果只看标题，这篇论文似乎只是一个偏工程的研究：如何让AI Agent的强化学习训练更省算力。

但如果把它放在最近几个月AI的发展脉络里，

就会发现它其实正好落位在OpenClaw、Claude Code、Devin这一波 Agent浪潮的底层。

而要理解这篇论文所讲的东西，

需要我们先下一个定义，AI正在从“模型时代”进入“Agent时代”

过去几年，大多数 AI 系统的结构其实非常简单。

输入一段内容，模型计算，然后输出结果。

从ChatGPT到图像生成模型，本质都是同一个逻辑：

输入→模型→输出

整个系统的核心资源也很单一，那就是GPU。

因此过去几年 AI 的竞争基本围绕模型参数规模、训练数据、GPU算力三件事来展开。

但随着AI Agent的出现，计算结构突然变得复杂起来。

一个典型的Agent任务可能是这样的：

思考→搜索信息→写代码→运行代码→分析结果→再修改

在这个过程中，AI不再只调用模型本身，还会不断调用各种工具。

要用GPU去做模型推理，要用CPU去执行代码，要用API去处理搜索、数据库，可能还要用浏览器进行网页操作......

于是，一个Agent系统的资源结构就变成了：

GPU+CPU+API+存储+网络

这已经非常接近一个完整的软件系统。

“帮我整理今天的AI新闻并做成Excel。”

一个Agent就会搜索网页、抓取信息、总结内容、生成表格、保存文件，

整个过程涉及浏览器、Python、文件系统、模型推理。

这是Agent计算模式的典型例子，龙虾OpenClaw也是这么做的，

而最近Anthropic更新的Claude Code，也在逐渐向同样的方向发展。

/loop：让AI自动循环执行任务

CLAUDE.md：提供长期记忆

Session Spawning：手机远程启动电脑上的AI编程任务

连不少开发者看完更新后的第一反应都是“这不就是官方版龙虾吗？”

当远程操控、自主执行和长期记忆组合在一起时，AI不再只是一个聊天工具，而更像一个持续运行的数字员工。

好用，确实是好用，但真正的问题也就在其中，

算力怎么调度？

在传统模型训练中，资源基本只有GPU。

但在 Agent 系统里，不同任务会不断切换资源类型：

有时需要GPU，有时需要CPU，有时需要API

如果资源管理方式不合理，就会出现大量浪费。

论文里给出的典型例子中有一项数据，

在某些AI编程任务中，CPU的真实利用率只有47%。

剩下的算力基本处于闲置状态。

对于正在进行大规模训练的 AI 公司来说，这种浪费意味着巨大的成本。

基于此，罗福莉等人的论文提出了一种新的系统：Tangram。

它的核心思路很像操作系统的进程调度。

传统系统的资源分配方式是任务级调度：

一个Agent任务开始时，就会占用CPU或GPU，直到任务结束。

而Tangram采用的是动作级调度。

也就是说，只有当某个具体操作需要资源时，系统才会分配资源。

写代码→GPU

编译代码→CPU

运行测试→CPU

搜索资料→API

这样不同Agent的任务可以共享资源。

实验结果显示，这种调度方式带来明显提升：平均任务时间缩短4.3倍，训练效率提升1.5倍，外部资源成本降低71%，

对于正在进行大规模Agent训练的团队来说，这种效率提升非常关键。

如果把最近几个月的技术动向连起来，会看到一条越来越清晰的路线。

OpenClaw解决的是Agent的运行框架问题，

Claude Code、Devin解决的是Agent在真实任务中的应用问题，

而罗福莉等人做Tangram这样的研究，则开始解决Agent的底层计算问题。

这说明AI行业正在经历一个结构性变化，

竞争的焦点正在从模型能力转向Agent系统能力。

这也正是为什么OpenClaw、Claude Code、Devin会在今年突然变得如此重要。（转载自AI普瑞斯）

扫码下载app 最新资讯实时掌握

小米 罗福莉

上一篇对话Canva可画中国王可辛：AI始终是人的乙方

下一篇字节叫停豆包AI眼镜，大厂AI硬件进入祛魅时刻