【技术底稿 07】37 岁老码农,3 分钟搞定独立告警大屏!Prometheus+Grafana 监控体系彻底闭环

张开发
2026/4/5 1:39:13 15 分钟阅读

分享文章

【技术底稿 07】37 岁老码农,3 分钟搞定独立告警大屏!Prometheus+Grafana 监控体系彻底闭环
背景与目标承接上一篇技术底稿 06我们已经把Prometheus Alertmanager 邮件告警链路彻底跑通。今天清明假期我们只需要做最后一步把告警搬到大屏上。我的目标很明确做一块纯告警总览大屏一眼看全有没有告警数量统计什么告警服务器宕机 / CPU / 内存等谁挂了实例信息核心难点由于 Grafana 使用的是外部 Alertmanager 模式不是 Grafana 原生告警原生的Alert list面板无法显示 Prometheus 的告警。咱们直接绕开所有坑用PromQL 直接查 Prometheus做一个100% 适配、零冲突的告警大屏。️ 环境说明架构Prometheus Alertmanager邮件已通 Grafana现状告警已能发邮件只需在 Grafana 新建页面展示策略复用已有 PromQL不改动任何告警后端配置一、核心思路为什么不用 Alert list在你当前的环境外部 Alertmanager 模式下Grafana 的Alert list面板有个致命坑它只显示 Grafana 自己管理的告警完全不读取 Prometheus/Alertmanager 的外部告警。无论你怎么勾选过滤都会显示No alerts matching filters。最终方案直接利用 Prometheus 内置的ALERTS指标通过Table 表格和Stat 统计面板取数。这是最稳、最直接、最准确的方案数据 100% 来自你的告警源。二、3 分钟落地步骤慢动作一步不落步骤 1新建空白大屏打开 Grafana → 左侧Dashboards→ 右上角New→ 选New dashboard命名为「Prometheus 告警总览大屏」先不着急保存。步骤 2添加「告警列表」面板核心面板点中间的Add visualization右侧Data source选prometheus在Query A输入框输入 PromQLpromqlALERTS{alertstate!inactive}(含义查询所有非正常状态的告警即正在告警 / 待处理的告警)右侧Visualization选Table(表格模式最直观)右侧Panel options-Title填服务器告警总览点右上角Apply。步骤 3添加「当前告警数」大屏醒目大数字点右上角添加-Visualization数据源选prometheusQuery 输入promqlcount(ALERTS{alertstatefiring})(含义统计当前正在触发的告警总数)右侧Visualization选Stat配置阈值与颜色运维黄金法则Display-Color mode选BackgroundThresholdsLevel 1 (绿色)填00 条告警时显示绿色安心Level 2 (红色)填1有 1 条及以上告警立即变红警示Title填当前告警数点Apply。三、最终效果验证刚才的截图就是完美成果触发告警在服务器执行docker stop node_exporter等待邮件送达。大屏同步左表清晰显示alertname服务器宕机、instancenode_exporter:9100、alertstatefiring。右数显示醒目的红色大数字1视觉冲击强远看一眼就能看到。恢复验证执行docker start node_exporter大屏自动刷新数字变为绿色0列表清空。四、监控体系全链路闭环干货总结至此你的个人监控体系已经完全搭建完成形成了完美闭环采集node_exporter 采集服务器 / MySQL 指标。存储Prometheus 存数据 存告警规则。告警Prometheus 检测规则触发事件。通知Alertmanager 过滤聚合 - 发送 QQ 邮件。展示业务大屏Linux/MySQL纯监控不看告警。告警大屏本页专门看告警0 绿 1 红运维最爱的样式。⚠️ 避坑复盘这篇文章最大的价值环境适配在外部 Alertmanager模式下切勿使用 Grafana 自带的 Alert list必坑。数据源头所有告警直接从 PrometheusALERTS表取数数据最权威。视觉设计Stat 面板配置0绿1红符合运维大屏直觉避免误读。 下一步计划监控体系已闭环后续无需新增复杂配置。节后我们继续在 Prometheus 中新增CPU / 内存 / 磁盘告警规则大屏会自动同步不用再改 Grafana。关注我持续更新《人生底稿》成长史 《技术底稿》实战干货一起踏实成长不焦虑、不内卷。 系列导航【人生底稿 01】农村少年1995–2005【技术底稿】0137岁老码农用4台机器搭了套个人DevOps平台

更多文章