黄家亮 阿里云智能GTS-SRE团队 资深技术支持工程师

7年IT从业经验,超3年阿里专有云运维管理经验,现就职于阿里云智能GTS-SRE团队,负责运维开发工作,期间深度参与并负责铜雀、TAM企业服务运营管理平台以及TAC报警中心三个系统从0到1的建设工作,有效提高专有云运维能力和效率。

简介

TAC报警中心是SRE团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。

功能特点

  • 告警汇聚
    • 默认集成:云平台、大数据、云实例、站点应用
    • 支持扩展:自定义监控
  • 报警通道
    • 钉钉、本地化钉钉
    • 短信设备、公共云短信服务
    • 企业邮箱

平台体系

图1:TAC平台体系

架构设计

图2:TAC架构设计

界面展示

图3:TAC界面展示

主要功能

  • 告警中心
    • 展示TAC平台当前所有的告警数据,并显示近7天的产品告警TOP排行
  • 告警工作台
    • 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警
    • 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学
    • 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸
    • 展示当前告警总数、待处理告警数、已关闭的告警数以及近7天的MTTR和平均MTTR
  • 策略中心
    • 可以通过设置自动分派策略,当指定的产品出现告警后会自动为该用户认领告警
    • 当天首次出现的告警会立即通知,非首次出现的告警需要遵循1440分钟的静默期后通知
    • 可以控制告警发送时的状态,发生时、认领时、关闭时
    • 可以预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效
  • 推送配置
    • 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警
    • 提供钉钉、短信、邮件的外发配置页面
  • 系统配置
    • 可以在实例管理页面手动创建或导入需要监控的实例列表
    • 例如项目未部署大数据产品可以在菜单管理页面通过禁用的方式控制首页的告警展示
    • 当想同时管理多朵云时,可以在配置管理页面创建多个节点,配置多个节点的告警数据接口
    • 当数据源有监控能力增加时,TAC无需升级,只需在监控管理页面增加监控项名称即可具备监控能力
  • 站点监控配置
    • 在监控任务页面可以配置用户关心的网站、机器或某个接口,TAC会根据规则进行监控
    • 若现场以前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC来展示和外发

结语

目前,中国区100+项目已部署TAC,其中有40%+的项目可以通过钉钉、短信或邮件的方式实现告警外发。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。