本文介绍同城多活的常见问题以及解决方案。

假设数据库主备,ECS双可用区部署,是否就是同城多活?

不是。此方案仅做到同城“资源”双活,业务流量存在南北走向流量HTTP,东西走向流量RPC、消息、分布式任务等。资源双活在业务节点故障时,南北走向流量切走,东西走向流量仍旧持续进入,业务无法恢复,因此无法做到业务同城多活。

和EDAS、MSE集群流量同可用区优先的差异和优势?

类别 MSHA EDAS、MSE
微服务日常场景 面向可用区级别,解决RT问题。 面向可用区级别,解决RT问题。
基本概念 逻辑集群概念 可用区概念
同可用区多个逻辑集群优先 支持 不支持
故障场景RPC切零 支持 不支持
支持的服务
  • 微服务
  • 消息
  • 分布式任务
微服务

消息是基于Shutdown机制实现多活么?

不是。因为这样会涉及业务重启恢复,如果每次容灾演练都需要全部业务配合进行机器重启及顺序控制,这样是用户无法接受的。

数据库是两个机房各一个主备,还是主机房一主一备,备机房一备的部署形态?

一主一备。若新增备节点,成本可控下可多备节点。

消息的主备容灾细节点是什么?

Broker容灾策略核心在于数据追平、禁写、主节点切换。

MSHA能给客户业务带来什么价值?

MSHA在 “0-1-5-10”(事前预防-1分钟发现-5分钟决策-10分钟恢复) 里面的 “0”、“5”、“10”提供价值,具体表现如下:

  • “0”:基于MSHA隔离逻辑区域能力,业务代码发布、配置变更优先在其中之一的区域进行。生产部分进入小比例流量进行验证,持续一定时间后,若系统有问题则快速切流恢复,避免线上因代码、配置问题导致的大面积故障。
  • “5”:基于MSHA流量封闭能力,业务故障时,在业务监控层面看到,A区域业务监控指标下跌,B区域正常。此时业务方可快速决策将A切流至B,避免定位问题及决策的时间开销。
  • “10”:基于MSHA自上而下的流量规则管理和集成数据库同步能力,可分钟级完成容灾切换操作,恢复业务。