Prometheus监控告警实战指南：PromQL查询与Alertmanager配置方案-瀚煜云服

文章最后更新时间：2026-04-08 10:35:46

【免责声明：本文由AI辅助生成，内容仅供参考，不构成专业建议。】

Prometheus 监控告警实战指南

Prometheus是云原生监控的事实标准，配合Grafana和Alertmanager构建完整的监控告警体系。

核心组件

Prometheus Server：数据采集和存储
Exporter：暴露监控指标（node_exporter、jmx_exporter等）
Alertmanager：告警路由和通知
Grafana：可视化展示

PromQL常用查询

# CPU使用率
100 - (avg by(instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

# 内存使用率
(1 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100

# HTTP请求QPS
rate(http_requests_total[5m])

# P99延迟
histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m]))

告警规则示例

groups:
- name: node_alerts
  rules:
  - alert: HighCPU
    expr: cpu_usage > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "CPU使用率过高 {{ $value }}%"

更多技术文章：https://blog.hanyucloud.com | 客服：400-880-3980

文章版权归作者所有，未经允许请勿转载。

THE END