文档

运维中心概述

更新时间:

运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控、智能诊断、资源运维和引擎运维功能模块,为您提供任务操作与状态、引擎、资源等多方位的运维能力。

运维中心功能模块

当您在DataStudio中完成节点开发,并提交和发布至生产环境后,即可在运维中心对任务进行运维操作,包括周期调度任务的自动调度与手动运行、任务运行详情查看、任务运行状态监控、任务运行使用的资源监控与自动运维;实时任务的执行管控、运行详情查看与监控报警配置;调度任务运维大屏以及数据集成离线同步与实时同步任务运维专页,针对任务运维关键指标的查看。运维中心逻辑图

下表为运维中心各模块功能使用的简单说明:

模块

描述

环境支持情况

查看运维大屏

运维大屏以报表的形式为您展示任务的运行的重要指标。包括调度任务的关键运维指标统计与数据集成离线同步与实时同步任务运维专页。

开发环境运维中心无此模块

实时同步任务运行与管理

在实时任务运维界面,您可以针对实时任务进行启动、停止、下线与监控报警相关操作。

-

查看并管理周期任务

周期任务运维为您展示任务提交到调度系统后的调度任务列表与调度环境产生的周期实例。周期任务面板展示当前所有的调度节点,您可以在周期任务面板修改周期调度任务使用的资源组、责任人等信息。

DataWorks每晚会根据周期任务自动生成第二天待运行的周期实例,同时支持您手动触发周期任务,分别生成补数据实例测试实例,您可以通过生成的实例查看任务的运行详情。

开发环境运维中心无法自动调度生成周期实例。

手动任务运维

手动任务运维为您展示任务提交到调度系统后的手动任务列表与经过手动触发运行后生成的手动实例手动任务面板展示当前所有的手动触发式任务,您可以在手动任务面板修改任务执行时使用的调度资源组、责任人等信息。

在手动任务面板中,选择类型为手动业务流程,支持您手动触发任务运行并且生成手动实例,您可以查看生成的手动实例的运行详情。

-

智能监控

  • 监控对象:周期任务、实时计算任务、资源水位。

    监控支持为自动调度的周期任务设置监控报警,监控在自动调度场景下的周期实例运行情况,支持独享资源组水位监控及实时计算任务运行状态监控。

  • 监控方式:自定义规则、智能基线

    支持针对指定对象(节点、业务流程、工作空间、基线、实时计算任务、独享调度资源组、独享数据集成资源组)的监控报警,同时也支持针对整个“业务线”的基线预警,并通过您配置的报警方式来发送相应的报警信息。

  • 报警方式:支持短信、邮件、电话、钉钉群和webhook,已支持设置值班表,将对应时间的报警消息报警给对应的值班人员。

开发环境运维中心无此模块

资源运维

资源运维主要对独享调度资源组独享数据集成资源组的使用情况(使用率、运行中任务列表、排队任务列表)进行监控和自动运维,支持查看资源组使用趋势。

-

引擎运维

目前支持对EMR引擎的运维。在DataWorks实例任务中,E-MapReduce计算引擎任务会被分为若干作业有序执行,您可以使用DataWorks的引擎运维功能,查看各个E-MapReduce作业的详细信息,及时查找并清理运行有误的作业,避免该类作业阻塞下游任务,影响实例任务的正常运行。

开发环境运维中心无此模块

智能诊断

DataWorks运维中心为您提供运行诊断功能,帮助您掌握任务运行的全链路信息,以便迅速定位问题。

开发环境运维中心无此模块

同时,需关注以下注意事项:

  • 在标准模式工作空间下,您可以通过界面左上角切换进入到开发运维中心和生产运维中心。

  • 仅生产环境运维中心支持自动调度。即只有在生产环境运维中心,您才能在周期实例面板中看到自动调度执行的周期实例。

生产任务运行逻辑

生产任务包括周期任务、手动任务和实时任务。运维逻辑

  • 周期任务运维

    当节点被提交发布至运维中心后,您可以在运维中心的周期任务中看到该节点(周期任务列表中的任务为所有周期性调度的任务),DataWorks每晚会生成第二天待运行的周期实例,同时支持您手动触发周期任务,分别生成补数据实例测试实例

    实例类型

    应用场景

    与周期任务的关系

    (对应实例如何生成)

    实例触发方式

    (对应实例如何触发执行)

    任务运行条件

    周期实例

    周期性自动化进行ETL操作。

    平台每晚根据某一时间点周期任务快照信息自动生成第二天待运行的周期实例。

    说明

    开发环境运维中心不会自动调度生成周期实例。

    平台自动触发周期实例执行。

    以周期实例上的任务为例,任务开始运行前需满足以下条件:

    • 依赖的所有父节点实例状态都为成功状态。

    • 已到达任务节点设置的任务定时运行时间。

    • 调度资源充足。

    • 本任务不是冻结状态。

    运行流程图

    说明

    运维中心中,不同的实例颜色代表实例处于不同的状态中,实例运行状态示意详情可参考:附录:实例状态

    补数据实例

    需要对当前节点及下游节点执行补过去某一时间段或未来某段时间的数据的操作,即需要对历史或未来时间段的数据进行ETL操作。

    人为针对当前周期任务手动触发补数据操作,并生成补数据实例。

    人为针对周期任务进行补数据操作后,会生成补数据实例,并同时触发补数据实例执行。

    执行测试并查看测试实例

    需要对当前周期任务进行测试,观察执行结果是否符合预期。

    说明

    测试实例的运行其实际上也在真实执行代码逻辑的。

    人为针对当前周期任务手动触发测试操作,并生成测试实例。

    人为针对周期任务的进行测试操作后,会生成测试实例,并且同时触发测试实例执行。

    您可以在周期任务运维下的周期实例面板、补数据实例面板、测试实例面板中查看各类实例的运行情况,根据实例的状态了解数据产出是否异常,不同实例状态的详情请参见附录:实例状态

    说明
    • 周期实例根据周期任务每晚(23:30~24:00)定时自动生成,测试实例、补数据实例根据补数据和测试操作时间点的周期任务手动触发,因此补数据和测试会以最新的任务配置情况生成对应的实例。

    • 新建节点发布生产环境后,当晚会全量生成第二天待运行的周期实例,但新建节点发布时,您可以通过节点调度配置,选择实例生成方式来控制是否立即生成当天的周期实例,详情请参考时间属性配置说明

  • 手动任务运维

    当手动业务流程被提交发布至运维中心后,您可以在运维中心 > 手动任务运维 > 手动任务页面中看到该节点,当您需要运行该手动业务流程时,可以在手动任务面板对该任务执行运行操作,手动触发任务运行后,会产生手动实例,您可以在手动实例页面查看该实例执行详情。

  • 实时任务运维

    当实时任务被提交发布至运维中心后,您可以在运维中心 > 实时任务运维页面对实时任务进行启动、下线及报警配置等相关操作,实时任务运维分为实时计算任务和实时同步任务,您可以分别在实时任务运维下的实时计算任务、实时同步任务页面对其进行管理。详情请参见:实时计算任务运行与管理实时同步任务运行与管理

任务运行状态监控:智能监控

您可以使用智能监控功能监控周期调度任务状态、周期任务自动调度产生的周期实例运行状态、实时计算任务运行状态,配置相应监控规则(自定义规则、智能基线)后,平台一旦检测到规则被触发,将会根据您设置的自定义规则及智能基线的报警方式,通过邮件、短信、电话或钉钉群消息等形式通知您,方便您及时发现并处理异常问题。

  • 周期任务状态监控

    DataWorks每晚根据周期任务生成第二天待自动调度运行的周期实例,所以为保障周期任务可以正常产生周期实例并且自动调度运行,DataWorks内置了报警规则来对周期任务进行定期监控扫描,如有异常便会自动报警。

    系统内置全局报警规则(非空间级别报警规则)对周期任务的状态进行监控。报警包括孤立节点节点成环

    说明
    • DataWorks每天定时9点、12点、16点对周期任务状态进行扫描,如有异常将会自动发送报警。但扫描时间点前10分钟内产生异常不会纳入本次扫描,该异常将会被纳入下一个周期的任务状态扫描中进行扫描。

    • 全局规则为系统内置规则,您无须手动新建,默认以短信、邮件的方式报警给节点责任人。但您可以在规则管理页面中针对全局规则修改报警接收人。

    • 节点孤立报警

      孤立节点指节点在周期任务或周期实例中展开父节点时,没有依赖任何父节点,这类型节点在自动调度时不会被调度调起,所以孤立节点不会自动调度运行,如果该孤立节点下游依赖较多,则会造成严重的后果。孤立节点产生后会自动报警,如果收到孤立节点报警请及时处理。

      说明

      在DataWorks上,除了工作空间根节点外,自定义的每个周期调度的节点都需要有父节点依赖才可以被正常调度运行。

    • 节点成环报警

      节点成环指的是某节点为上游节点但又同时依赖了自己的下游节点。导致依赖关系成环,这类型节点在自动调度时不会被调度调起,节点成环后会自动报警,如果收到节点成环报警请及时处理。

  • 周期实例运行状态监控

    在DataWorks上,周期任务周期性调度时将产生周期实例,DataWorks支持通过周期任务自定义规则监控配置,实现对周期实例运行状态的监控,包括指定对象的自定义规则监控报警和重要任务提前预警的基线预警功能。

    • 自定义规则报警

      通过新建自定义规则实现对指定对象的报警。

      您可以对指定对象(任务节点、基线、工作空间、业务流程)上节点的状态(完成、未完成、出错、周期未完成、超时、自动重跑后仍出错等及实时计算任务的出错)设置监控报警。支持短信、邮件、电话、钉钉机器人和webhook的方式发送报警给责任人(节点责任人、指定责任人或值班表中的排班等),详情请参考规则管理

    • 基线预警

      通过设置基线优先级来保障基线上的任务按时执行,数据顺利产出。

      当有任务需要重保并且上游任务依赖较为复杂时,可以使用基线功能将重要任务移到该基线上。当影响基线在预期时间内数据产出的情况发生时,基线将为您快速定位影响当前节点数据产出的关键路径,找到阻塞任务(即影响保障数据产出的关键实例)并第一时间发出报警,保障重要数据在预期时间内顺利完成。当影响基线的任务(基线上的任务及其上游任务)出错或者变慢,您将会收到相应的报警。其报警分为基线预警与事件报警。支持短信、邮件、电话、钉钉机器人和webhook的方式发送报警给责任人(节点责任人、指定责任人或值班表中的排班等),关于基线使用详情请参见:基线管理

      • 基线预警

        当基线根据基线的承诺时间、预警余量等预测无法保障基线上的任务在预警时间内完成时,便会触发基线提前预警功能。

      • 事件报警

        当影响基线上数据产出的任务(基线上的任务及其上游任务)出错或者变慢时,将会收到相应的事件报警。

    • 实时计算任务运行状态监控

      您可以通过自定义规则,对实时计算任务的运行状态进行监控,当任务节点出错时通过配置的短信、邮件、电话、钉钉机器人和webhook等方式发送报警给责任人(节点责任人、指定责任人和值班表中的排班等)。详情请参考规则管理

任务运行资源监控与运维:自动运维

您可以使用智能监控 > 规则管理中的自定义规则,来对独享资源组使用率及独享资源组上等待的实例数设置监控报警,并且支持结合自动运维功能通过短信、邮件、电话、钉钉机器人等方式发送报警给责任人(节点责任人、指定责任人)。关于自定义规则使用详情请参考规则管理

自动运维功能支持通过自定义规则中的独享资源组监控规则,并在限定条件下对独享资源组进行运维操作来保障重要任务的顺利运行,比如终止运行中的实例。详情请参考自动运维

任务运行问题定位:运行诊断

  • 调度任务运行的必要条件

    节点发布至运维中心后,任务开始运行前需满足以下条件。

    说明

    当任务未运行时您可以使用智能诊断功能快速进行对问题进行定位与排查,详情可参考文档:智能诊断

    1. 依赖的所有父节点实例状态都为成功状态

      配置节点依赖关系可以保障节点在运行时能取到正确的数据(读取上游表数据时,上游表的最新数据已产生),避免当前节点读取数据时,上游表数据还未产出,导致当前节点读取数据出现问题,所以,当节点存在上游节点依赖时,当前节点的执行,需要等待所依赖的父节点都执行成功。详情请参见:调度依赖配置指引

      说明
      • 父节点非成功状态包括父节点未运行、父节点状态失败、父节点被冻结(暂停)、父节点处于运行中。

      • 冻结状态的节点将阻塞下游节点执行。

    2. 已到达任务节点设置的定时运行时间

      数据开发中定义节点的调度属性时,需要为节点设置调度环境下节点运行的“理想时间”。

      • 当当前节点依赖的所有父节点都在当前节点设置的定时运行时间点前执行成功,那么当父节点全都执行成功后,当前节点将进入等待状态,待到达任务节点的定时时间后启动运行。

      • 当当前节点依赖的所有父节点在当前节点设置的定时运行时间点后执行成功,那么当父节点全都执行成功且有充足的调度资源时,当前节点将立即运行起来。

    3. 调度资源充足

      数据开发中定义节点的调度属性时,您可以设置调度环境下节点运行所使用的独享调度资源组。同时,您也可以在运维中心的周期任务页面进行修改。

      当当前节点所有的父节点运行成功,并且已经到达节点设置的定时运行时间时,如果节点指定的调度资源组无可用资源时,节点进入等待资源的状态,直到占用该调度资源的任务执行成功,将资源释放后启动运行。

    4. 本任务不是冻结状态

      如果当前节点处于冻结状态,那么节点满足上述三个条件后仍不会运行,并导致依赖该周期实例的下游实例无法运行。如果您需要解冻该节点,详情请参见:任务冻结与解冻

  • 任务运行失败原因诊断

    您可以使用智能诊断功能和DAG的上游分析功能对未运行任务进行快速诊断。

    其中,智能诊断功能支持对未开始运行的任务进行任务运行的必要条件检查,支持对运行失败的任务进行原因分析并给出诊断建议等。

    智能诊断能力概览:

    • 任务运行的全链路诊断。包括父节点运行情况检查、当前节点设置的定时时间检查、调度资源详情(任务使用的调度资源组使用趋势与任务排队数,当前任务等待资源时哪些任务占用资源)、任务执行详情(任务出错时提供原因分析与诊断建议)。

    • 当前实例的基本信息与实例运行的关键时间点(上游节点运行完成时间、当前节点设置的定时时间、开始等待调度资源时间、开始运行时间、运行成功时间)。

    • 当前节点影响的基线及其当天基线实例运行情况。

    • 当前节点平均运行时间、开始执行时间、等待资源消耗时间趋势图及当前节点运行历史的实例列表。

    关于智能诊断功能使用详情请参见:智能诊断

任务产出的表数据监控:数据质量

您可以使用数据质量功能对周期实例、补数据实例、测试实例产出的表数据进行监控。

周期任务在生产环境通过自动调度或手动触发来运行,分别产生周期实例、补数据实例和测试实例,您可以对周期任务设置数据质量规则来监控周期任务生成的实例(周期实例补数据实例测试实例)运行后所产出的表数据是否符合预期。

数据质量通过表配置的分区表达式来匹配节点产出的表分区,数据质量规则关联产出该表数据的调度节点,当节点运行后(运维中心中通过测试实例,补数据实例,周期实例的运行及重跑操作产出表数据),会触发该数据质量规则校验,您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大,同时,您也可以通过订阅规则来第一时间接收节点产出表数据异常的报警。详情请参考文档数据质量

附录:实例状态

运维中心按照不同的颜色与标识来辨识任务正处于运行流程中的哪个阶段,不同的实例颜色与标识代表实例处于不同的状态下。不同的实例颜色与标识所对应的任务状态如下所示。关于任务运行必要条件详情请参见:任务运行问题定位:运行诊断

序号

状态类型

状态标识

运行流程图

1

运行成功状态

运行成功

运行流程图

2

未运行状态

未运行

3

运行失败状态

运行失败

4

正在运行状态

正在运行

5

等待状态

等待状态

6

暂停/冻结状态

暂停冻结状态

  • 本页导读 (1)
文档反馈