从nvidia-smi到Grafana看板：手把手搭建你的GPU监控告警系统

张开发

• 2026/4/13 13:15:15 • 15 分钟阅读

分享文章

从nvidia-smi到Grafana看板手把手搭建你的GPU监控告警系统在AI模型训练和推理任务中GPU资源的高效利用直接关系到团队的生产力与成本控制。想象一下这样的场景凌晨三点你的分布式训练任务因为某台服务器的GPU显存泄漏而卡死而值班人员直到早上才发现问题——这种经历足以让任何技术负责人夜不能寐。本文将带你从零构建一套开源的GPU监控告警系统用不到200行代码实现专业级的硬件状态可视化让异常无所遁形。1. 监控系统架构设计现代GPU监控体系通常采用采集-存储-展示三层架构。我们的方案使用NVIDIA原生工具链配合开源生态组件形成完整的技术闭环[GPU设备] → [nvidia-smi] → [Prometheus exporter] → [Prometheus TSDB] → [Grafana可视化] ↘_________[Alertmanager] ←_________/这套架构的优势在于零成本全部使用开源组件低侵入不影响现有训练任务高扩展轻松支持数百节点集群关键指标采集频率建议设置为10-15秒既不会对系统造成负担又能捕捉到短期峰值。对于拥有RTX 4090或A100等高端显卡的环境需要特别关注这些指标指标类别关键参数危险阈值参考计算负载GPU利用率持续95%显存管理已用显存/总显存90%总容量温度控制GPU核心温度85℃电源状态功耗/功耗限制90% TDP2. 数据采集层实现nvidia-smi作为NVIDIA官方监控工具提供了最直接的硬件访问接口。但它的输出格式对自动化系统不够友好我们需要使用Prometheus社区开发的nvidia_gpu_prometheus_exporter来转换数据格式# 安装Python依赖 pip install nvidia-ml-py3 prometheus-client # 下载并启动exporter wget https://raw.githubusercontent.com/mindprince/nvidia_gpu_prometheus_exporter/master/exporter.py nohup python exporter.py --address 0.0.0.0 --port 9835 这个Python脚本会在后台运行HTTP服务将nvidia-smi的输出转换为Prometheus支持的metrics格式。访问http://服务器IP:9835/metrics可以看到类似这样的数据# HELP nvidia_gpu_memory_used_bytes Memory used by the GPU in bytes # TYPE nvidia_gpu_memory_used_bytes gauge nvidia_gpu_memory_used_bytes{gpu0,uuidGPU-xxxx} 8589934592对于多卡服务器 exporter会自动为每块GPU创建带标签的时间序列数据。如果遇到权限问题可以添加以下sudo规则# 创建/etc/sudoers.d/nvidia文件 Cmnd_Alias NVIDIA_SMI /usr/bin/nvidia-smi %sudo ALL(ALL) NOPASSWD: NVIDIA_SMI3. 数据存储与处理Prometheus作为时序数据库会定期从各个exporter拉取数据并压缩存储。配置只需在prometheus.yml中添加jobscrape_configs: - job_name: nvidia_gpu static_configs: - targets: [gpu-server1:9835, gpu-server2:9835] scrape_interval: 15s对于大规模集群建议使用服务发现机制替代静态配置。Prometheus支持Consul、Kubernetes等多种发现方式。存储保留时间根据硬盘容量设置通常保留15-30天的数据足够用于趋势分析。当需要长期存储时可以通过Remote Write功能将数据同步到VictoriaMetrics或M3DB等分布式系统中。以下命令可以测试单个GPU节点的数据量# 估算每日数据量假设采集20个指标 echo 20 metrics * 4 bytes * 4采集次数/分钟 * 1440分钟 | bc # 结果约为460KB/天/GPU4. Grafana看板开发Grafana的强大之处在于可以自由组合各种面板来讲述数据故事。我们导入社区模版ID14574作为基础然后进行深度定制利用率热力图使用Heatmap面板展示各卡负载分布avg(rate(nvidia_gpu_utilization[1m])) by (gpu)显存压力雷达用Stat面板显示关键指标sum(nvidia_gpu_memory_used_bytes{gpu0}) / sum(nvidia_gpu_memory_total_bytes{gpu0})温度趋势图设置阈值告警线nvidia_gpu_temperature_celsius{gpu0}对于多机柜环境建议使用变量实现动态过滤。在Dashboard设置中添加Name: $server Type: Query Data source: Prometheus Query: label_values(nvidia_gpu_memory_used_bytes, instance)然后在所有面板的PromQL中添加instance~$server条件。高级用户可以使用grafana/prometheus混合数据源实现跨集群对比。5. 告警规则配置有效的告警应该满足三个条件必要性、可操作性和即时性。在Prometheus的rules.yml中定义groups: - name: gpu-alerts rules: - alert: HighGPUUsage expr: avg_over_time(nvidia_gpu_utilization[5m]) 90 for: 10m labels: severity: warning annotations: summary: GPU {{ $labels.gpu }} 高负载 description: {{ $value }}% 持续10分钟 - alert: MemoryLeakDetected expr: predict_linear(nvidia_gpu_memory_used_bytes[1h], 3600) nvidia_gpu_memory_total_bytes labels: severity: criticalAlertmanager负责将触发告警路由到正确渠道。以下是邮件Slack的配置示例route: receiver: slack-notifications group_wait: 30s group_interval: 5m receivers: - name: slack-notifications slack_configs: - api_url: https://hooks.slack.com/services/xxx channel: #gpu-alerts send_resolved: true对于需要立即响应的关键告警如温度超过安全阈值可以集成电话呼叫系统如Twilio或PagerDuty。6. 高级监控技巧当系统规模扩大后基础监控需要升级为预测性维护。以下几个技巧值得关注异常检测使用Prometheus的holt_winters()函数实现基线告警holt_winters( avg_over_time(nvidia_gpu_power_draw[1h]), 0.1, 0.1, 7d/15s )性能分析在Grafana中嵌入PyTorch Profiler的火焰图# 在训练脚本中添加 with torch.profiler.profile( activities[torch.profiler.ProfilerActivity.CUDA], scheduletorch.profiler.schedule(wait1, warmup1, active3) ) as prof: for step, data in enumerate(train_loader): # 训练代码 prof.step()硬件健康度通过SMART指标预测故障nvsmart -i 0 --health # 返回示例GPU 0 Health: 87% (Wear: 13%, Temp: 5%, Power: 2%)对于使用Kubernetes的团队可以通过dcgm-exporter获取更丰富的容器级指标。结合Grafana的K8s插件能实现从集群到Pod再到GPU的多层级监控。

更多文章

前端开发 2026/4/13 13:13:26

VMPDump完整指南：如何轻松破解VMProtect 3.X x64保护程序

VMPDump完整指南：如何轻松破解VMProtect 3.X x64保护程序【免费下载链接】vmpdump A dynamic VMP dumper and import fixer, powered by VTIL. 项目地址: https://gitcode.com/gh_mirrors/vm/vmpdump 你是否遇到过这样的情况？面对使用VMProtect …

前端开发 2026/4/13 12:57:11

gitru：一个由 Rust 打造的零依赖 Git 提交信息校验工具钩

一、项目背景与核心价值 1. 解决的核心痛点 Navicat的数据库连接密码并非明文存储，而是通过AES算法加密后写入.ncx格式的XML配置文件中。一旦用户忘记密码，常规方式只能重新配置连接，效率极低。本项目只作为学习研究使用，不做其他…

张开发

从nvidia-smi到Grafana看板：手把手搭建你的GPU监控告警系统

最新文章

ROS Nano工作空间搭建指南

网络安全8大就业领域和待遇对比！

Apple-Mobile-Drivers-Installer：Windows系统苹果设备驱动终极安装指南

GeoJSON.io：5个理由让你爱上这款免费在线地理数据编辑器

从踩坑到落地：Java+ONNX Runtime部署YOLOv11到Windows工控机，零Python依赖

ESP32-S3图像处理实战：如何用OV2640摄像头抓图，并在ILI9488屏幕上流畅显示（代码开源）

推荐文章

新概念英语第一册115_Knock knock

新概念英语第一册117_Tommy s breakfast

AI开发-python-langchain框架（--并行流程）慕

解锁多路视频分发：专业虚拟摄像头解决方案深度解析

多元高斯分布：条件分布的实际应用与推导解析

Volatility过时了？试试Lovelymem：图形化内存取证，5分钟提取进程哈希和SID

相关文章

掌握媒体捕获与视频下载的7个实用技巧：猫抓cat-catch浏览器扩展完全指南

Android开发者必备：轻量级二维码解决方案ZXingLite全面解析

MogFace人脸检测在AR应用：移动端人脸关键点实时追踪与特效叠加

解锁AI编程效率：6个Continue插件实战技巧让开发效率提升10倍

[游戏录像引擎] 突破视角限制：League Director重构《英雄联盟》视频创作流程

从RK3562实践出发：AMP架构下的RPMsg核间通信实战解析

分享文章

更多文章

VMPDump完整指南：如何轻松破解VMProtect 3.X x64保护程序

GPU显存优化实践：Pixel Language Portal在FP16精度下保持语义还原度的量化部署教程

排序算法梗概（上）

智能浇花系统避坑指南：DHT11温湿度传感器校准与土壤湿度检测常见问题解析

如何让B站视频从娱乐工具转变为高效学习引擎：揭秘BiliTools的智能知识提取革命

深入解析ROC曲线与AUC：从理论到实践的全面指南

L3GD20陀螺仪FIFO时序与嵌入式实时驱动解析

2026最权威的十大AI写作工具实际效果

Windows 11任务栏歌词插件：让音乐歌词优雅融入你的工作流

cmd cd 命令行进入某个盘内

3步构建GTA5最强防护盾：YimMenu防崩溃终极指南

gitru：一个由 Rust 打造的零依赖 Git 提交信息校验工具钩

从nvidia-smi到Grafana看板：手把手搭建你的GPU监控告警系统

最新文章

ROS Nano工作空间搭建指南

网络安全8大就业领域和待遇对比！

Apple-Mobile-Drivers-Installer：Windows系统苹果设备驱动终极安装指南

GeoJSON.io：5个理由让你爱上这款免费在线地理数据编辑器

从踩坑到落地：Java+ONNX Runtime部署YOLOv11到Windows工控机，零Python依赖

ESP32-S3图像处理实战：如何用OV2640摄像头抓图，并在ILI9488屏幕上流畅显示（代码开源）

推荐文章

新概念英语第一册115_Knock knock

新概念英语第一册117_Tommy s breakfast

AI开发-python-langchain框架（--并行流程 ）慕

解锁多路视频分发：专业虚拟摄像头解决方案深度解析

多元高斯分布：条件分布的实际应用与推导解析

Volatility过时了？试试Lovelymem：图形化内存取证，5分钟提取进程哈希和SID

相关文章

掌握媒体捕获与视频下载的7个实用技巧：猫抓cat-catch浏览器扩展完全指南

Android开发者必备：轻量级二维码解决方案ZXingLite全面解析

MogFace人脸检测在AR应用：移动端人脸关键点实时追踪与特效叠加

解锁AI编程效率：6个Continue插件实战技巧让开发效率提升10倍

[游戏录像引擎] 突破视角限制：League Director重构《英雄联盟》视频创作流程

从RK3562实践出发：AMP架构下的RPMsg核间通信实战解析

分享文章

更多文章

AI开发-python-langchain框架（--并行流程）慕