云上容灾架构设计实战
99.99%可用性意味着全年宕机时间不超过52分钟.本文介绍如何达到这个目标.
可用性等级
| 等级 | 可用性 | 年宕机时间 | 典型方案 |
|---|---|---|---|
| 两个9 | 99% | 87.6小时 | 单机+定时备份 |
| 三个9 | 99.9% | 8.76小时 | 主备切换 |
| 四个9 | 99.99% | 52分钟 | 多活架构 |
| 五个9 | 99.999% | 5分钟 | 金融级多活 |
同城双活架构
# 同城双机房部署
机房A (主): ECS集群 + RDS主库
机房B (备): ECS集群 + RDS从库
SLB: 自动切换流量
# 切换时间: <30秒
# RTO(恢复时间): <1分钟
# RPO(数据丢失): <1秒
异地灾备
# DTS数据同步配置
# 北京主库 -> 深圳从库实时同步
# 延迟: <100ms
# 定期演练自动切换
0 3 1 * * /opt/scripts/failover_drill.sh
总结:容灾架构的核心是RPO和RTO,根据业务需求选择合适的方案.
