当企业的业务迁移部署在阿里云上,可使用阿里云的云解析DNS(Alibaba Cloud DNS)、负载均衡SLB(Server Load Balancer)、关系型数据库RDS(Relational Database Service)等产品,搭建同地域多可用区容灾系统架构,实现同城容灾。通过AHAS同城容灾演练验证同城容灾架构设计的合理性与正确性。
适用场景
同城灾备演练适用的灾备场景为:
公共云形态:企业业务使用阿里云同地域的不同可用区搭建的同城容灾架构,保障容灾能力。
应用级:企业希望对整体的应用做容灾备份演练,而非单独的数据库或存储。
云上同城灾备:应对公共云上某地域可用区故障场景。例如:
企业正使用的云产品实例不可用。
可用区的某产品的集群级别的性能衰减或不可用。
基础设置故障导致的整个可用区故障。
容灾演练示意图
同城容灾架构评估项
评估项 | 要求 |
SLB | 多可用区SLB实例。 |
应用层 | ECS多可用区部署,相关应用多可用区部署。 |
数据库 | 以RDS为例,实例为多可用区部署。 |
缓存 | 以Redis为例,实例为多可用区部署。 |
应用设计 | 应用设计的参考标准如下:
|
断网演练对业务的影响介绍
演练之前需对自身的部署架构进行充分评估。符合同城容灾架构相关标准只是具有同城容灾能力的基础条件,实际是否可以同城容灾还需通过做容灾演练加以验证。
断网演练执行后,相关指标、业务流量应该会有明显的下跌;容灾执行或者断网恢复后,相关指标、业务流量应该会有明显的回升。
断网演练的流程
断网演练的一般流程如下:
开启演练:由演练平台执行演练开启。
灾备切换:核心系统或组件进行自动容灾切换。
人工评估:用户核对业务侧核心指标实际值。
演练恢复:由演练平台执行演练恢复。
灾备回切:核心系统或组件进行自动灾备回切。
预期评判:结合业务侧核心指标预期值和实际值的差距,判断演练是否符合预期。
常见的名词解释
名词 | 说明 |
可用区 | 可用区(Availability Zone,简称AZ)是指在同一地域内,电力和网络互相独立的物理区域。同一可用区内实例之间的网络延时更小。 在同一地域内可用区与可用区之间内网互通,可用区之间能做到故障隔离。是否将实例放在同一可用区内,主要取决于对容灾能力和网络延时的要求。 |
断网范围 | 实施断网演练的具体范围,涉及可用区内的一个或者多个云产品、应用。 |
RPO(Recovery Point Objective) | 数据恢复点目标,以时间为单位。即在灾难发生时,系统和数据必须恢复的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。 |
RTO(Recovery Time Objective) | 恢复时间目标,以时间为单位。即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。 |
- 本页导读 (1)