微软开源15B多模态推理模型

鞭牛士 2026-03-05 10:31

AIPress.com.cn报道

3月5日消息，Microsoft 发布并开源一款15B参数的多模态推理模型——Phi-4-reasoning-vision-15B，主打硬件效率与视觉理解能力，可处理科学图表、界面截图等复杂视觉内容。

该模型基于两项既有算法构建：视觉编码算法SigLIP-2与此前已开源的Phi-4 Reasoning推理模型。SigLIP-2用于将图像压缩为神经网络可处理的数值表示，Phi-4 Reasoning则负责文本与逻辑推理能力。微软采用“中融合（mid-fusion）”架构将二者结合，即仅在部分网络层支持多模态处理，而非在所有层级引入视觉能力，从而在一定输出质量折衷下显著降低算力消耗。

微软表示，用户还可通过提示词启用或关闭推理功能，以进一步降低基础设施占用。这种可切换设计使模型在推理强度与资源效率之间实现动态平衡。

在训练方面，Phi-4-reasoning-vision-15B主要使用开源数据，包括图像及对应文本描述。训练前，微软对数据进行多阶段筛选：保留无需修改的高质量数据集；对图像质量较高但文本标注不准确的数据重新生成说明文本，所用模型包括 GPT-4o 与 o4-mini；同时加入内部构建数据及部分定向收购的高质量数据。训练语料中还包含模型应避免的行为示例，用于降低潜在有害输出风险。

在基准测试中，微软将该模型与同规模推理模型进行比较。在包含多模态数学问题的MathVista_Mini测试中，Phi-4-reasoning-vision-15B成绩较 Gemma 3 12B IT 高出17%，并在六项以上评测中取得更高分数。微软研究人员称，该模型在数学与科学推理方面表现突出，在计算资源消耗显著低于部分大型模型的前提下实现竞争性性能。

应用层面，该模型可用于构建具备界面理解能力的AI代理系统。通过分析截图，模型能够推断按钮、菜单、文本框等界面元素的功能与位置，适用于桌面、网页及移动端环境的自动化交互场景。

此外，模型还可解析复杂视觉资产，例如科学图表或天文图像。在演示中，用户上传土星照片并询问其倾斜原因，模型能够结合季节与观测角度进行解释。

目前，微软已在Hugging Face、GitHub及Azure平台开放该模型代码与访问渠道。（AI普瑞斯编译）

扫码下载app 最新资讯实时掌握

微软

上一篇AI时代最稀缺的，不是技术而是心力

下一篇Anthropic CEO认为奥特曼的公开表态是场彻头彻尾的谎言