美团LongCat发布VitaBench评测基准，真实生活场景下大模型智能体成功率仅30%

鞭牛士 2025-10-20 18:14

10月20日，美团LongCat团队正式发布大模型智能体评测基准“VitaBench”。

该基准高度贴近真实生活场景，以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体，构建了包含66个工具的交互式评测环境，还进行了跨场景综合任务设计，如旅游规划任务需智能体完成从购票到订餐厅的全流程。

团队从深度推理、工具使用与用户交互三大维度对智能体任务量化拆解，结果显示，即便当前领先的推理模型，在复杂跨场景任务主榜中的成功率也仅30%，凸显出现有智能体与真实生活场景应用需求的明显差距。

目前VitaBench已全面开源，将为智能体在真实场景的研发应用提供重要基础设施。（转自AI普瑞斯）

扫码下载app 最新资讯实时掌握

美团