Prometheus监控告警完全指南：从指标采集到告警通知的完整实践-瀚煜云服

文章最后更新时间：2026-04-11 14:41:24

【免责声明：本文由AI辅助生成，内容仅供参考，不构成专业建议。】

Prometheus 监控告警完全指南：从指标采集到告警通知的完整实践

Prometheus是云原生监控的事实标准。本文分享从指标采集到告警通知的完整Prometheus实战经验。

Prometheus基础

核心概念：Pull模式（拉取）、时间序列数据、多维数据模型。

核心组件：Prometheus Server（采集和存储）、Alertmanager（告警）、Exporters（数据导出器）。

数据模型：指标名+标签集+时间戳。metric_name{label=”value”}。

指标类型

Counter（计数器）：只增不减的指标。请求数、错误数。

Gauge（仪表）：可增可减的指标。CPU使用率、内存使用率。

Histogram（直方图）：统计分布的指标。请求延迟分布。

Summary（摘要）：客户端计算的分位数。请求延迟分位数。

Exporter

Node Exporter：采集服务器基础指标。CPU、内存、磁盘、网络。

cAdvisor：采集容器指标。Docker/Kubernetes容器监控。

MySQL Exporter：采集MySQL数据库指标。

Redis Exporter：采集Redis指标。

Blackbox Exporter：黑盒监控。HTTP/TCP/DNS探活。

应用自定义指标：使用客户端库（Go/Java/Python）暴露指标。

PromQL查询

基础查询：metric_name{label=”value”}。查询指定指标。

范围查询：metric_name[5m]。查询时间范围内的数据。

聚合运算：sum()、avg()、max()、min()。聚合查询结果。

函数：rate()、increase()、irate()。计算速率和增量。

标签过滤：{label=~”regex”}。正则匹配标签。

Grafana可视化

安装配置：配置Prometheus数据源。创建Dashboard。

Dashboard市场：使用社区分享的Dashboard。Node Exporter Dashboard等。

变量：使用变量实现Dashboard复用。

告警规则：在Grafana中创建告警规则。绑定通知渠道。

Alertmanager告警

告警规则：在Prometheus中定义告警规则。expr条件、for持续时间、labels严重程度。

告警分组：将相似告警分组。避免告警风暴。

告警抑制：抑制某些告警。火灾报警抑制其他告警。

通知渠道：邮件、Slack、PagerDuty、钉钉、企业微信等。

Kubernetes监控

kube-state-metrics：采集K8s对象状态指标。Deployment、Pod、Service状态。

prometheus-operator：K8s原生Prometheus管理。CRD定义Prometheus配置。

cAdvisor：采集容器指标。

告警规则：Pod重启、节点不可用、Deployment副本不足等。

最佳实践

合理命名指标：metric_name_total、metric_name_seconds等规范。标签不要过多：控制在10个以内。保留时间：短期数据保留1个月，长期数据下采样。告警阈值：根据历史数据设置合理阈值。告警分级：P1/P2/P3，不同级别不同处理方式。

更多技术文章：https://blog.hanyucloud.com | 客服：400-880-3980

文章版权归作者所有，未经允许请勿转载。

THE END

Prometheus监控告警完全指南：从指标采集到告警通知的完整实践