Phi-3.5-mini-instruct部署教程：vLLM服务容器化+Prometheus指标暴露配置

张开发

• 2026/6/5 16:07:27 • 15 分钟阅读

分享文章

Phi-3.5-mini-instruct部署教程vLLM服务容器化Prometheus指标暴露配置1. 模型简介Phi-3.5-mini-instruct 是一个轻量级的开放模型属于Phi-3模型家族。它基于高质量的数据集构建特别关注推理密集型任务。该模型支持128K令牌的上下文长度经过监督微调、近端策略优化和直接偏好优化等多阶段训练具备精确的指令遵循能力和强大的安全措施。主要特点轻量级设计资源占用低128K长上下文支持优化的指令遵循能力内置安全防护机制2. 环境准备2.1 系统要求建议部署环境满足以下条件Linux操作系统Ubuntu 20.04推荐Docker 20.10NVIDIA GPU至少16GB显存CUDA 11.8至少50GB可用磁盘空间2.2 依赖安装# 安装Docker sudo apt-get update sudo apt-get install docker.io # 安装NVIDIA容器工具包 distribution$(. /etc/os-release;echo $ID$VERSION_ID) \ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update sudo apt-get install -y nvidia-docker2 sudo systemctl restart docker3. 容器化部署3.1 拉取镜像docker pull csdn-mirror/phi-3.5-mini-instruct:vllm3.2 启动容器docker run -d --gpus all \ -p 8000:8000 \ -p 9090:9090 \ -v /path/to/models:/models \ --name phi-3.5-mini \ csdn-mirror/phi-3.5-mini-instruct:vllm3.3 验证部署检查服务是否正常运行docker logs phi-3.5-mini看到类似以下输出表示部署成功INFO: Started server process [1] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:80004. Prometheus指标配置4.1 指标暴露设置vLLM服务默认会暴露Prometheus格式的指标可以通过以下URL访问http://localhost:9090/metrics4.2 关键监控指标主要监控指标包括vllm_request_count请求总数vllm_request_duration_seconds请求处理时间vllm_tokens_generated生成的token数量vllm_gpu_utilizationGPU利用率vllm_memory_usage内存使用情况4.3 Prometheus配置示例scrape_configs: - job_name: vllm static_configs: - targets: [localhost:9090]5. 模型调用验证5.1 使用Chainlit前端Chainlit提供了一个简单易用的Web界面来与模型交互。启动Chainlitchainlit run app.py访问http://localhost:8000即可打开交互界面。5.2 API调用示例也可以通过HTTP API直接调用模型import requests url http://localhost:8000/v1/completions headers {Content-Type: application/json} data { model: phi-3.5-mini-instruct, prompt: 解释量子计算的基本原理, max_tokens: 200 } response requests.post(url, headersheaders, jsondata) print(response.json())6. 常见问题解决6.1 模型加载失败可能原因显存不足模型文件损坏权限问题解决方案检查GPU显存使用情况重新下载模型文件确保容器有足够的权限访问模型目录6.2 性能优化建议使用--tensor-parallel-size参数增加并行度调整--max-num-seqs参数优化并发处理能力启用--quantization减少显存占用7. 总结本教程详细介绍了Phi-3.5-mini-instruct模型的容器化部署过程包括使用vLLM高效部署模型服务配置Prometheus监控指标通过Chainlit和API两种方式调用模型常见问题的排查方法这套方案结合了容器化的便捷性和监控系统的可观测性适合生产环境部署使用。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Phi-3.5-mini-instruct部署教程：vLLM服务容器化+Prometheus指标暴露配置

最新文章

NVIDIA DGX SuperPOD：AI超级工厂的算力革命

STC8H8K64U单片机内存布局保姆级图解：从code区到EEPROM，新手避坑指南

TVA技术在能源行业的应用综述

python jwt

保姆级教程：在粤嵌GEC6818上搞定GY-39传感器数据采集（附完整源码）

Android音频启动流程避坑指南：AudioPolicyService与AudioFlinger的交互核心loadHwModule与openOutput详解

推荐文章

相关文章

分享文章

更多文章

WarcraftHelper：魔兽争霸3终极优化指南，解锁300帧率与宽屏体验

STM32按键控制LED灯，从硬件连线到软件消抖，一个视频全搞定（附完整代码）

从天线设计到图像处理：聊聊贝塞尔函数在Python里的那些‘跨界’应用

避坑指南：泰山派RK3566开发板MIPI屏幕的3大配置雷区（附永久生效方案）

Windows Cleaner终极指南：开源工具高效解决C盘爆红问题

真正能用的短视频智能获客系统源码长这样（含演示地址）

车载Docker镜像体积暴增7.8倍？（车载ARM64精简镜像实战手册）——基于12款主流TDA4/Orin平台压测验证

树莓派Zero 2 W打造超低功耗家庭媒体服务器实战

LLM智能体工具体系：Function Calling, MCP, Skills三者的差异与协同逻辑深度解析！

Dify微调效率提升300%的关键技巧，本地GPU资源利用率翻倍实测报告

镜像体积压缩78%、冷启提速4.2倍，Docker边缘轻量化部署实战指南，

real-anime-z实操手册：/root/ai-models/Devilworld/real-anime-z路径说明