Prometheus监控告警实战指南:PromQL查询与Alertmanager配置方案

文章最后更新时间:2026-04-08 10:35:46

【免责声明:本文由AI辅助生成,内容仅供参考,不构成专业建议。】

Prometheus监控告警实战指南

Prometheus是云原生监控的事实标准,配合GrafanaAlertmanager构建完整的监控告警体系。

核心组件

  • Prometheus Server:数据采集和存储
  • Exporter:暴露监控指标(node_exporter、jmx_exporter等)
  • Alertmanager:告警路由和通知
  • Grafana:可视化展示

PromQL常用查询

# CPU使用率
100 - (avg by(instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

# 内存使用率
(1 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100

# HTTP请求QPS
rate(http_requests_total[5m])

# P99延迟
histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m]))

告警规则示例

groups:
- name: node_alerts
  rules:
  - alert: HighCPU
    expr: cpu_usage > 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "CPU使用率过高 {{ $value }}%"

更多技术文章:https://blog.hanyucloud.com | 客服:400-880-3980

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 共6条

请登录后发表评论