文章最后更新时间:
【免责声明:本文由AI辅助生成,内容仅供参考,不构成专业建议。】
Prometheus监控告警实战指南
Prometheus是云原生监控的事实标准,配合Grafana和Alertmanager构建完整的监控告警体系。
核心组件
- Prometheus Server:数据采集和存储
- Exporter:暴露监控指标(node_exporter、jmx_exporter等)
- Alertmanager:告警路由和通知
- Grafana:可视化展示
PromQL常用查询
# CPU使用率
100 - (avg by(instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
# 内存使用率
(1 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100
# HTTP请求QPS
rate(http_requests_total[5m])
# P99延迟
histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m]))
告警规则示例
groups:
- name: node_alerts
rules:
- alert: HighCPU
expr: cpu_usage > 80
for: 5m
labels:
severity: warning
annotations:
summary: "CPU使用率过高 {{ $value }}%"
更多技术文章:https://blog.hanyucloud.com | 客服:400-880-3980
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END

















- 最新
- 最热
只看作者