Phi-4 Reasoning Vision 15B 让多模态图文推理进入「可落地、轻量、专业」新时代

张开发
2026/5/29 14:23:37 15 分钟阅读
Phi-4 Reasoning Vision 15B 让多模态图文推理进入「可落地、轻量、专业」新时代
没有复杂设置、没有多余步骤——只有一张图和一段文本。过去这意味着开发者要手动拼接视觉与语言模块参数、模式、推理逻辑全靠经验调试。现在Phi-4 Reasoning Vision 15B 代表了另一种可能让模型在推理阶段自动理解图文特征并生成高质量、多步骤推理结果。微软发布的 Phi-4 Reasoning Vision 15B 模型基于 150 亿参数支持图文联合推理能够处理复杂文档分析、数学推理、图像理解以及 GUI 定位等任务。该模型采用 SigLIP-2 视觉编码器与 Phi-4-Reasoning 语言骨干网络的中间融合架构将图像转换为视觉 token 并注入语言模型实现图文同步推理。动态分辨率设计支持多达 3,600 个视觉 token既能分析高分辨率图表也能精确识别界面元素。模型提供三种思考模式think 展示推理过程、nothink 快速输出答案、hybrid 平衡速度与精度。Phi-4 Reasoning Vision 15B 并不是又一套「复杂多模态管线」而是一种能够在推理阶段统一处理文本与图像信息的智能工具——让多模态推理变得可控、轻量且专业。教程链接https://go.openbayes.com/O8tVV使用云平台: Openbayeshttp://openbayes.com/console/signup?rsony_0m6v首先点击「公共教程」找到「Phi-4-reasoning-vision-15B 多模态推理视觉模型 Demo」单击打开。页面跳转后点击右上角「克隆」将该教程克隆至自己的容器中。在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本不需要再进行手动选择。点击「继续执行」等待分配资源。若显示「Bad Gateway」这表示模型正在加载中请等待约 2-3 分钟后刷新页面即可。使用步骤如下1.页面跳转后点击左侧 README.ipynb 文件进入后点击上方「运行」。2.运行完成即可点击右侧 API 地址跳转至 demo 页面。3.输入想问的问题或图片设定 System Prompt(系统提示词)选择 Max New Tokens最大生成长度 和 Temperature随机性。推荐配置简单问答Max New Tokens 1024Temperature 0.0简短回答确定性输出详细推理Max New Tokens 4096Temperature 0.0复杂问题展示推理过程创意生成Max New Tokens 2048Temperature 0.7需要多样性的创意任务图像描述Max New Tokens 2048Temperature 0.0详细描述图像内容图像推理Max New Tokens 4096Temperature 0.0基于图像的复杂推理4.输入完成后点击运行稍等片刻右侧结果框生成回答。

更多文章