美团LongCat发布VitaBench评测基准,真实生活场景下大模型智能体成功率仅30%
10月20日,美团LongCat团队正式发布大模型智能体评测基准“VitaBench”。
该基准高度贴近真实生活场景,以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建了包含66个工具的交互式评测环境,还进行了跨场景综合任务设计,如旅游规划任务需智能体完成从购票到订餐厅的全流程。

团队从深度推理、工具使用与用户交互三大维度对智能体任务量化拆解,结果显示,即便当前领先的推理模型,在复杂跨场景任务主榜中的成功率也仅30%,凸显出现有智能体与真实生活场景应用需求的明显差距。
目前VitaBench已全面开源,将为智能体在真实场景的研发应用提供重要基础设施。(转自AI普瑞斯)
更多AI资讯请点击:http://www.aipress.com.cn/
扫码下载app 最新资讯实时掌握
