云服务器监控搭建

云服务器监控体系搭建实践

完善的监控是云服务器稳定运行的基础保障。通过多层次的实时监控，可将故障发现时间从数小时压缩到分钟级，将被动救火变为主动预防。

一、监控体系的四个层次

完整的监控体系由底向上分为四层：基础设施层（CPU、内存、磁盘、网络硬件指标）；应用层（Web服务可用性、数据库性能、中间件状态）；业务层（订单量、用户活跃数、核心接口成功率）；日志层（错误日志、访问日志、安全审计日志）。

二、Prometheus + Grafana 快速搭建

Prometheus + Grafana是目前最流行的云原生监控组合，搭建步骤如下：

1. 在每台服务器安装Node Exporter采集系统指标（CPU/内存/磁盘/网络），默认监听9100端口。

2. 部署Prometheus服务器，配置抓取节点列表，默认每15秒抓取一次指标数据。

3. 安装Grafana，添加Prometheus数据源，导入社区模板（ID:1860），5分钟即可获得专业监控大盘。

4. 配置Alertmanager，接入企业微信/钉钉Webhook，实现告警实时推送。

三、核心监控指标与告警阈值

以下是生产环境必须配置的监控指标：

CPU使用率：超过75%持续5分钟告警，超过90%持续2分钟紧急告警
内存使用率：超过80%告警，超过95%紧急告警
磁盘使用率：超过80%告警（磁盘满会导致服务崩溃）
系统负载：load average超过CPU核数1.5倍告警
TCP连接数：异常增长可能是DDoS攻击信号
接口错误率：5分钟错误率超过1%告警
接口响应时间：P99超过500ms告警

四、应用层监控配置

Nginx监控：安装nginx-exporter暴露QPS、连接数、错误码分布；MySQL监控：安装mysqld_exporter监控慢查询、连接数、锁等待；Redis监控：安装redis_exporter监控内存使用率、命中率、连接数；自定义业务指标：在应用代码中埋点，通过Prometheus SDK暴露业务指标。

五、告警分级与值班机制

告警必须分级管理：P0（服务宕机）5分钟内响应、电话+短信通知；P1（功能降级）30分钟内响应、企业微信通知；P2（性能劣化）2小时内处理、邮件通知。配置告警静默和抑制规则，避免告警风暴。

六、总结

监控体系建设是持续迭代的过程，建议从云厂商原生监控起步，逐步引入Prometheus + Grafana，再叠加日志监控和业务监控。每一层监控都有其价值，最终形成全方位的可观测性体系，让服务器运行状态始终清晰透明。