×
加载中...
美团LongCat发布AMO-Bench,打破大模型数学天花板
鞭牛士 2025-11-17 11:16

过去两年,大语言模型的数学推理成绩一路飙升,AIME24AIME25 等主流评测榜单上,领先模型正确率普遍突破 90%。数学曾经是 AI 最能体现“思维能力”的试金石,但如今却因为题库公开、评测饱和、泄题风险等问题,逐渐丧失区分度,“越考越简单”。

在这样的背景下,美团 LongCat 团队推出了全新的高难度数学推理评测:AMO-Bench。这套基准由 50 道竞赛专家原创题目构成,难度整体对标甚至超越国际数学奥林匹克(IMO)。首轮测试中,即便是顶尖的 GPT-5–Thinking,在 32 次机会下平均正确率也只达到 52.4%,绝大多数模型甚至不足 40%。换句话说:现阶段所有大模型在真正的高阶数学推理面前,依然远离“及格线”。

为何必须有 AMO-Bench因为旧的评测已经被模型“读透”了

LongCat 团队指出,主流数学评测几乎都来自公开竞赛题库,模型可能在训练中“看过答案”,真实能力被高估。同时,AIMEHMMT  benchmark 已经接近满分状态,已经无法推动模型继续在推理深度上提升。

即便直接使用 IMO 原题进行评估,也存在新的问题:大多数 IMO 题为证明题,必须人工批改,一道题可能耗费 30 分钟,难以规模化评测。

行业急需一套高原创 + 高难度 + 可自动化评分的评测方案,而 AMO-Bench 正好同时满足三点。

图片

AMO-Bench 如何打造?四道关卡把题目“打磨到极限”

LongCat 团队为此建立了严格的构建流程:

专家原创

所有题目均由有奥赛经历的专家独立设计,并附带详细的 step-by-step 解题路径,方便校验逻辑。

三重盲审

至少三位专家独立审题,确保题意清晰、难度到位、不超纲。

去重与原创性核查

结合文本匹配、互联网检索和人工审核,严格避免与现有题库相似,避免模型“记忆命中”。

难度双审

候选题必须让顶尖模型连续三次无法全对,同时需专家再次确认难度不低于 IMO

结果就是:每道题都“尖锐、干净、原创、够狠”。

覆盖五大数学核心领域,推理链远超 AIME

AMO-Bench  50 道题覆盖代数、几何、数论、组合、函数与数列五类奥赛核心主题。与 AIME 等题库相比,AMO-Bench 题目的解题链条更长,需要构建复杂逻辑链,模型输出长度普遍达到原 benchmark 的数倍。

图片

LongCat 发现:在 AMO-Bench 上,模型答案长度越长,得分越高,说明模型必须投入更多推理步骤才能接近正确解。

自动化评分准确率达 99.2%,大规模评测可真正落地

针对不同类型答案(数值、集合、表达式、描述性),AMO-Bench 采用多种评分策略,包括:

数学等价判定(Math-Verify

LLM 多轮打分(majority voting

实测准确率高达 99.2%,可以在不依赖人工批改的情况下完成大规模评测。

评测结果:头部模型“全军覆没”

LongCat  26 个主流模型进行了全面测试,结果显示:

闭源推理模型最好,但仍远低于满分

GPT-5-ThinkingHigh)最高:52.4%

其余闭源模型多在 30–45% 区间

开源阵营虽然差距仍在,但追赶迅猛

Qwen3-235B-A22B-Thinking-250747.8%

DeepSeek-V3.1-Thinking47.6%

两者均已超越多个闭源中量级模型。

图片

Test-Time Scaling 依旧有效,但代价巨大

AMO-Bench 表明:模型愿意输出更多步骤(更多 tokens),正确率就能显著提升。

例如:一些 SOTA 推理模型平均输出量超过 35K tokens,同一模型正确率与输出长度呈“对数线性增长”曲线

图片

这验证了:

在数学推理上,“算得多”真的能“算得对”,但代价是极高的推理成本。

Pass@32 显示模型仍有巨大潜力

虽然单次正确率并不高,但多次尝试的 Pass@32 指标显示:

GPT-5-ThinkingHigh)等模型可达 70%+

说明大模型内部仍然具有“隐含”的正确解路径,只是一次推理未必能稳定走到终点。

图片

AMO-Bench 的意义不仅是“难”,而是:

重新建立了数学推理评测的天花板;

让模型间差距重新拉开;

避免了数据污染

实现了高可信度自动化评分。

给多家机构提供了真正能“逼出推理能力”的训练与评估工具。

LongCat 团队也表示将长期更新 AMO-Bench,并持续建设更通用、更高阶的“推理能力测试集”,推动大模型在推理领域不断演进。

AIME 时代的“高分假象”正式被打破。AMO-Bench 把大模型从舒适区一把拽回现实世界。(转载自AI普瑞斯)

更多AI资讯请点击:http://www.aipress.com.cn/

扫码下载app 最新资讯实时掌握