在托管ECS实例的底层硬件意外崩溃的情况下,阿里云通常会在一分钟内确认故障是否不可逆转并且实例是否无法修复,并大约在五分钟内自动重新启动实例,实现宕机迁移。在这种情况下,所恢复实例的所有实例元数据都将保持不变,例如实例ID以及私有IP地址和公网IP地址等。

自动恢复是异常类系统事件,其事件代码为SystemFailure.Reboot。下表区分了自动恢复与其他类型的运维事件。
运维事件类型 是否可以查询运维计划 是否可以人工干预
自动恢复
非异常类系统事件

使用限制

  • 实例自动恢复期间,您无法自行重启实例。
  • 如果您使用的是带有本地存储的实例,如何恢复实例的可用性有以下差异。更多详情,请参见本地盘实例系统事件概述
    • 原宿主机可以自行重启恢复,则本地盘实例方可自动恢复,本地盘数据会被保留。
    • 原宿主机无法自行重启恢复,则本地盘实例会被重新部署到其他健康宿主机,本地盘数据会被清除。
    本地盘实例发生运维事件时,您可以提交工单查询本地盘数据恢复情况。

查看实例自动恢复事件

本文示例通过阿里云CLI调用API DescribeInstanceHistoryEvents查看实例是否有执行中或已执行的自动恢复事件。

aliyun ecs DescribeInstanceHistoryEvents --RegionId TheRegionId --InstanceId YourInstanceId --InstanceEventCycleStatus.1=Executing --InstanceEventCycleStatus.2=Executed --InstanceEventType.1=SystemFailure.Reboot

有关如何使用ECS控制台查看自动恢复事件,请参见查看历史系统事件

提高容错率

若需充分利用实例的自动恢复功能和故障转移操作,请确保您完成了以下操作:

  • 将您的核心应用程序(例如SAP HANA)添加到自启动项列表中,避免业务操作的任何中断。
  • 开启应用程序的自动重新连接功能。例如,允许应用程序自动连接到MySQL、SQL Server或Apache Tomcat。
  • 如果您同时使用了负载均衡服务,请将多台ECS实例部署在集群环境中,当某一台ECS实例处于自动恢复过程中时,其余ECS实例可以继提供业务访问能力。
  • 定期备份本地盘上的数据,以实现数据冗余和提供实例重新部署的数据文件。