Phi-3.5-mini-instruct部署教程:vLLM服务容器化+Prometheus指标暴露配置

张开发
2026/4/21 22:46:29 15 分钟阅读

分享文章

Phi-3.5-mini-instruct部署教程:vLLM服务容器化+Prometheus指标暴露配置
Phi-3.5-mini-instruct部署教程vLLM服务容器化Prometheus指标暴露配置1. 模型简介Phi-3.5-mini-instruct 是一个轻量级的开放模型属于Phi-3模型家族。它基于高质量的数据集构建特别关注推理密集型任务。该模型支持128K令牌的上下文长度经过监督微调、近端策略优化和直接偏好优化等多阶段训练具备精确的指令遵循能力和强大的安全措施。主要特点轻量级设计资源占用低128K长上下文支持优化的指令遵循能力内置安全防护机制2. 环境准备2.1 系统要求建议部署环境满足以下条件Linux操作系统Ubuntu 20.04推荐Docker 20.10NVIDIA GPU至少16GB显存CUDA 11.8至少50GB可用磁盘空间2.2 依赖安装# 安装Docker sudo apt-get update sudo apt-get install docker.io # 安装NVIDIA容器工具包 distribution$(. /etc/os-release;echo $ID$VERSION_ID) \ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update sudo apt-get install -y nvidia-docker2 sudo systemctl restart docker3. 容器化部署3.1 拉取镜像docker pull csdn-mirror/phi-3.5-mini-instruct:vllm3.2 启动容器docker run -d --gpus all \ -p 8000:8000 \ -p 9090:9090 \ -v /path/to/models:/models \ --name phi-3.5-mini \ csdn-mirror/phi-3.5-mini-instruct:vllm3.3 验证部署检查服务是否正常运行docker logs phi-3.5-mini看到类似以下输出表示部署成功INFO: Started server process [1] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:80004. Prometheus指标配置4.1 指标暴露设置vLLM服务默认会暴露Prometheus格式的指标可以通过以下URL访问http://localhost:9090/metrics4.2 关键监控指标主要监控指标包括vllm_request_count请求总数vllm_request_duration_seconds请求处理时间vllm_tokens_generated生成的token数量vllm_gpu_utilizationGPU利用率vllm_memory_usage内存使用情况4.3 Prometheus配置示例scrape_configs: - job_name: vllm static_configs: - targets: [localhost:9090]5. 模型调用验证5.1 使用Chainlit前端Chainlit提供了一个简单易用的Web界面来与模型交互。启动Chainlitchainlit run app.py访问http://localhost:8000即可打开交互界面。5.2 API调用示例也可以通过HTTP API直接调用模型import requests url http://localhost:8000/v1/completions headers {Content-Type: application/json} data { model: phi-3.5-mini-instruct, prompt: 解释量子计算的基本原理, max_tokens: 200 } response requests.post(url, headersheaders, jsondata) print(response.json())6. 常见问题解决6.1 模型加载失败可能原因显存不足模型文件损坏权限问题解决方案检查GPU显存使用情况重新下载模型文件确保容器有足够的权限访问模型目录6.2 性能优化建议使用--tensor-parallel-size参数增加并行度调整--max-num-seqs参数优化并发处理能力启用--quantization减少显存占用7. 总结本教程详细介绍了Phi-3.5-mini-instruct模型的容器化部署过程包括使用vLLM高效部署模型服务配置Prometheus监控指标通过Chainlit和API两种方式调用模型常见问题的排查方法这套方案结合了容器化的便捷性和监控系统的可观测性适合生产环境部署使用。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章