11月3日消息,美团今日宣布LongCat-Flash系列再升级,正式发布并开源LongCat-Flash-Omni。

据官方介绍,LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。
综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平,同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。
LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应。

一体化架构:采用端到端设计,通过视觉/音频编码器感知多模态输入,由 LLM 直接生成文本与语音 token,再通过轻量级解码器重建语音波形,实现流式推理。
分块式音视频特征交织机制:支持 128K tokens 上下文窗口与超 8 分钟音视频交互,提升长时记忆与多轮对话能力。
渐进式训练策略:分阶段融合文本、语音、图像、视频数据,确保全模态性能无单模态退化。


经过全面的综合评估显示:LongCat-Flash-Omni 不仅在综合性的全模态基准测试上达到了开源最先进水平,其在文本、图像、音频、视频等各项模态的能力均位居开源模型前列,实现“全模态不降智”。

此外,美团表示LongCat官方App现已正式发布,支持联网搜索,还可发起语音通话。
此前,自9月1日起,美团已正式发布 LongCat-Flash 系列模型,现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本。(转载自:AI普瑞斯)
更多AI资讯请点击:http://www.aipress.com.cn/
扫码下载app 最新资讯实时掌握
