×
加载中...
美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA
鞭牛士 2025-12-08 10:27

12月8日消息,美团正式推出并开源其全新图像生成模型 LongCat-Image。该模型以 6B 参数规模实现文生图与图像编辑双能力,在多个开源评测中达到或逼近当前最佳表现(SOTA),尤其在单图编辑和中文文字生成方面优势明显。


微信图片_2025-12-08_102115_260.png


LongCat-Image 采用文生图与图像编辑同源架构,并引入渐进式训练、指令联合学习与人工标注数据等策略,使得模型在 指令遵循、图像质量与视觉一致性上取得同步提升。在 GEdit-Bench、ImgEdit-Bench 等多项图像编辑基准中,LongCat-Image 指标达到开源最高水平。


微信图片_2025-12-08_102157_098.png


在中文文字渲染方面,模型通过课程学习策略覆盖 8105 个规范汉字,并融入真实世界文本图像及 OCR 奖励信号,使生僻字与复杂字体生成能力明显提升。基于 ChineseWord 测试 LongCat-Image 得分 90.7 分,领先所有参评模型,适用于古诗插图、广告海报、招牌设计等需要复杂文字生成的场景。


微信图片_2025-12-08_102231_097.jpg


客观评测数据显示,LongCat-Image 在 GenEval 文生图得分 0.87、DPG-Bench得分 86.8,综合表现接近部分闭源产品;在图像编辑方面虽仍落后于部分商业高阶模型,但整体明显超过现有开源方案。


640.png


美团同步开源了文生图 Mid-training/Post-training 阶段模型以及图像编辑模型,支持开发者在研究或商用方向上进行快速使用与二次开发。模型仓库已在 Hugging Face 与 GitHub 公开。

扫码下载app 最新资讯实时掌握