Prometheus监控体系实战指南：从指标采集到告警通知完整方案-瀚煜云服

文章最后更新时间：2026-04-08 18:12:04

【免责声明：本文由AI辅助生成，内容仅供参考，不构成专业建议。】

Prometheus监控体系实战指南

Prometheus已成为云原生监控的事实标准，被广泛应用于Kubernetes、微服务、容器等场景的监控告警。本文从Prometheus架构原理出发，详细介绍指标采集、存储查询、告警配置以及Grafana可视化，帮助你构建完整的监控体系。

Prometheus核心架构

Prometheus Server：核心组件，负责指标抓取、存储和查询。采用Pull模式主动从目标拉取指标，支持服务发现自动发现监控目标
Client Libraries：各种语言的客户端库（Go、Java、Python、Node.js等），用于在应用中埋点暴露指标
Exporters：用于暴露第三方系统指标（如Node Exporter暴露主机指标、MySQL Exporter暴露数据库指标）
Pushgateway：用于短期任务或批处理作业的指标推送，Prometheus从Pushgateway拉取
Alertmanager：告警管理组件，负责告警分组、抑制、静默和通知路由

核心指标类型

Counter（计数器）：单调递增的累计值，如请求总数、错误总数。使用rate()或increase()函数计算速率
Gauge（仪表盘）：可增可减的瞬时值，如CPU使用率、内存使用量、当前连接数
Histogram（直方图）：采样观测值并分桶统计，如请求延迟分布。自动计算分位数（quantile）
Summary（摘要）：类似Histogram，但在客户端计算分位数，适合无法聚合的场景

PromQL查询语言

PromQL是Prometheus的查询语言，功能强大且灵活。常用操作：瞬时向量选择器（http_requests_total）、范围向量选择器（http_requests_total[5m]）、聚合操作（sum、avg、max、min、count）、数学运算（+、-、*、/）、比较运算符（==、!=、>、<）、逻辑运算符（and、or、unless）。示例：计算HTTP请求错误率：sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m]))

告警规则配置

在prometheus.yml中配置rule_files加载告警规则文件。告警规则包含告警名称、触发条件（PromQL表达式）、持续时间和标签注释。示例规则：高CPU使用率告警：expr: 100 – (avg by(instance) (irate(node_cpu_seconds_total{mode=”idle”}[5m])) * 100) > 80 for: 5m annotations: summary: “High CPU usage”