千问全模态Qwen3.5-Omni上线，支持文本、图片、音频和音视频理解

鞭牛士 2026-03-30 21:41

3月30日，千问今日宣布，全模态Qwen3.5-Omni上线。

据介绍，Qwen3.5-Omni 是Qwen最新一代全模态大模型，支持文本、图片、音频、音视频理解。

结构上，Qwen3.5-Omni的 Thinker与Talker 均采用 Hybrid-Attention MoE 架构。Qwen3.5-Omni 系列包含Plus, Flash, Light三种尺寸的Instruct版本，支持 256k 长上下文，模型支持超过 10 小时的音频输入及超过 400 秒的 720P (1 FPS)音视频输入。

模型在海量文本、视觉以及超过 1 亿小时的音视频数据上进行原生多模态预训练，该模型展现出卓越的全模态感知与生成能力。

相比Qwen3-Omni, Qwen3.5-Omni 多语言能力大大增强，能够支持113种语种和方言的语音识别和36种语种和方言的语音生成。

官方表示，目前可通过Offline API和Realtime API进行体验。

扫码下载app 最新资讯实时掌握

千问

上一篇苹果成立50周年：一家车库公司如何成长为市值3.5万亿美元巨头

下一篇微软发布人工智能升级：向早期用户推出Copilot Cowork服务