云服务器监控体系搭建实践
完善的监控是云服务器稳定运行的基础保障。通过多层次的实时监控,可将故障发现时间从数小时压缩到分钟级,将被动救火变为主动预防。
一、监控体系的四个层次
完整的监控体系由底向上分为四层:基础设施层(CPU、内存、磁盘、网络硬件指标);应用层(Web服务可用性、数据库性能、中间件状态);业务层(订单量、用户活跃数、核心接口成功率);日志层(错误日志、访问日志、安全审计日志)。
二、Prometheus + Grafana 快速搭建
Prometheus + Grafana是目前最流行的云原生监控组合,搭建步骤如下:
1. 在每台服务器安装Node Exporter采集系统指标(CPU/内存/磁盘/网络),默认监听9100端口。
2. 部署Prometheus服务器,配置抓取节点列表,默认每15秒抓取一次指标数据。
3. 安装Grafana,添加Prometheus数据源,导入社区模板(ID:1860),5分钟即可获得专业监控大盘。
4. 配置Alertmanager,接入企业微信/钉钉Webhook,实现告警实时推送。
三、核心监控指标与告警阈值
以下是生产环境必须配置的监控指标:
- CPU使用率:超过75%持续5分钟告警,超过90%持续2分钟紧急告警
- 内存使用率:超过80%告警,超过95%紧急告警
- 磁盘使用率:超过80%告警(磁盘满会导致服务崩溃)
- 系统负载:load average超过CPU核数1.5倍告警
- TCP连接数:异常增长可能是DDoS攻击信号
- 接口错误率:5分钟错误率超过1%告警
- 接口响应时间:P99超过500ms告警
四、应用层监控配置
Nginx监控:安装nginx-exporter暴露QPS、连接数、错误码分布;MySQL监控:安装mysqld_exporter监控慢查询、连接数、锁等待;Redis监控:安装redis_exporter监控内存使用率、命中率、连接数;自定义业务指标:在应用代码中埋点,通过Prometheus SDK暴露业务指标。
五、告警分级与值班机制
告警必须分级管理:P0(服务宕机)5分钟内响应、电话+短信通知;P1(功能降级)30分钟内响应、企业微信通知;P2(性能劣化)2小时内处理、邮件通知。配置告警静默和抑制规则,避免告警风暴。
六、总结
监控体系建设是持续迭代的过程,建议从云厂商原生监控起步,逐步引入Prometheus + Grafana,再叠加日志监控和业务监控。每一层监控都有其价值,最终形成全方位的可观测性体系,让服务器运行状态始终清晰透明。