×
加载中...
微软开源15B多模态推理模型
鞭牛士 2026-03-05 10:31

AIPress.com.cn报道

3月5日消息,Microsoft 发布并开源一款15B参数的多模态推理模型——Phi-4-reasoning-vision-15B,主打硬件效率与视觉理解能力,可处理科学图表、界面截图等复杂视觉内容。

该模型基于两项既有算法构建:视觉编码算法SigLIP-2与此前已开源的Phi-4 Reasoning推理模型。SigLIP-2用于将图像压缩为神经网络可处理的数值表示,Phi-4 Reasoning则负责文本与逻辑推理能力。微软采用“中融合(mid-fusion)”架构将二者结合,即仅在部分网络层支持多模态处理,而非在所有层级引入视觉能力,从而在一定输出质量折衷下显著降低算力消耗。

微软表示,用户还可通过提示词启用或关闭推理功能,以进一步降低基础设施占用。这种可切换设计使模型在推理强度与资源效率之间实现动态平衡。

在训练方面,Phi-4-reasoning-vision-15B主要使用开源数据,包括图像及对应文本描述。训练前,微软对数据进行多阶段筛选:保留无需修改的高质量数据集;对图像质量较高但文本标注不准确的数据重新生成说明文本,所用模型包括 GPT-4o 与 o4-mini;同时加入内部构建数据及部分定向收购的高质量数据。训练语料中还包含模型应避免的行为示例,用于降低潜在有害输出风险。

在基准测试中,微软将该模型与同规模推理模型进行比较。在包含多模态数学问题的MathVista_Mini测试中,Phi-4-reasoning-vision-15B成绩较 Gemma 3 12B IT 高出17%,并在六项以上评测中取得更高分数。微软研究人员称,该模型在数学与科学推理方面表现突出,在计算资源消耗显著低于部分大型模型的前提下实现竞争性性能。

应用层面,该模型可用于构建具备界面理解能力的AI代理系统。通过分析截图,模型能够推断按钮、菜单、文本框等界面元素的功能与位置,适用于桌面、网页及移动端环境的自动化交互场景。

此外,模型还可解析复杂视觉资产,例如科学图表或天文图像。在演示中,用户上传土星照片并询问其倾斜原因,模型能够结合季节与观测角度进行解释。

目前,微软已在Hugging Face、GitHub及Azure平台开放该模型代码与访问渠道。(AI普瑞斯编译)

扫码下载app 最新资讯实时掌握