创建演练包括配置演练基本信息、演练对象和演练全局参数。

背景信息

一次完整的故障演练包括以下四个阶段:

安装探针 > 创建演练 > 执行演练 > 停止演练

操作步骤

  1. 登录AHAS控制台,在左侧导航栏中选择故障演练 > 我的空间
  2. 我的空间页面,单击新建演练
  3. 选择从空白创建或其他演练模板。

    选择其他演练模板会从经验库里直接生成演练的配置基本信息。

  4. 演练配置页面,填写演练名称演练描述演练标签
    配置项 配置说明
    演练名称 填写演练名称。
    演练描述 为该演练添加描述,包括演练原因、演练场景以及演练可能造成的影响等信息。
    演练标签 自定义演练标签,便于演练的查询和统计:
    • 输入标签内容时,系统会显示已有的标签。
    • 一个演练场景中,最多可输入五个标签。
    • 标签将自动保存,下次可通过搜索或直接从下拉列表中选择已有的标签。
  5. 配置演练对象。
    1. 演练对象区域设置分组名称,选择资源类型

      资源类型包括以下类型:

      • 主机类型:包括Linux系统资源和Windows系统资源。
      • Kubernetes类型:包括Kubernetes类型的应用。
      • 云服务类型:包括ECS、RDS等云服务。
    2. 选择演练对象
      • 若选择演练对象应用,则需要选择演练应用应用分组机器列表等。
      • 若选择演练对象非应用,则需要选择机器列表
      说明
      • 机器列表中可以选择一台或多台机器。
      • 非应用的机器列表中可切换Linux或Windows机器类型进行查看。
    3. 选择机器选择的方式。
      • 指定IP选择:选中机器列表中的机器即可,精确指定机器执行故障注入。
      • 百分比选择:当演练对象为应用时,可使用百分比选择方式。滑动指针,设置1~100的百分比数值,每次执行演练时,系统会随机从所选应用分组下的存活机器中,按百分比选取目标机器,并执行故障注入。
    4. 单击+添加演练内容,然后按需选择演练场景。故障演练支持的场景,请参见演练场景说明
    5. 单击保存,然后单击下一步
      配置演练对象.png
  6. 配置全局配置。在全局配置区域完成以下配置。

    以下配置以脚本方式制造CPU满载的演练场景为例。

    1. 选择演练流程顺序执行
    2. 单击监控策略的新增策略,选择需要监控的指标,然后单击确定。在指标的面板中设置相关参数。
    3. 单击恢复策略的新增策略,选择需要恢复的指标,然后单击确定
    4. 在指标面板中,配置恢复规则和恢复策略。
      例如配置恢复策略为:当70%的机器满足system.cpu.util(综合利用率)等于100%且持续30s时,即可解除CPU满载,恢复初始CPU使用率。创建演练.png
    5. 设置自动恢复时间
  7. 单击下一步

后续步骤

演练创建成功后,您可以:
  • 执行演练

    在演练列表中的某个演练的操作列,单击演练,执行演练。请参见执行演练

  • 查看并编辑演练详情

    在演练列表,单击某个演练名称,可查看演练内容。单击页面右上角编辑演练,可修改演练内容。

  • 拷贝演练

    在演练列表中的某个演练的操作列,单击拷贝,拷贝一个同名的演练,您可以在此基础上编辑演练内容。

  • 删除演练

    在演练列表中的某个演练的操作列,单击删除