入湖任务管理

通过入湖任务,您可以定义数据入湖的方式和所消耗的资源。

页面概览

进入入湖任务管理页面,可以看到入湖的任务当前运行状态,手动停止运行中任务,启动一个入湖任务或删除入湖任务。入湖任务管理图

操作步骤

创建一个入湖任务管理,需要经过如下步骤。

  1. 登录数据湖管理控制台,选择数据入湖 > 入湖任务管理

  2. 指定入湖模板的类型,当前的入湖模板包括5种类型,用在不同的数据入湖场景。

    数据胡模板
    • 全量数据库:可以实现RDS MySQL数据库表数据全量同步到数据湖,选择在数据源管理中配置好的RDS MySQL链接,将数据源对应数据库中选定表的数据全量同步到OSS中,如果待同步表中数据量大,则所消耗的资源也会比较大,建议在业务低谷期执行此类任务,避免对业务连续性产生影响。待抽取的MySQL表需确认包含主键,否则抽取任务会报错。

    • 增量数据库:可以实现RDS MySQL数据库表数据增量同步到数据湖,选择在数据源管理中配置好的RDS MySQL链接,将数据源对应数据库中选定表的数据抽取binlog的方式将数据库表数据实时同步回放到数据湖中。待抽取的MySQL表需确认包含主键,否则抽取任务会报错。

    • 实时SLS:可以实现阿里云日志服务SLS数据实时同步到数据湖,您可以选择当前账号下的SLS Project,该Project下对应的Log Store,实时的将数据同步到数据湖中。

    • 实时OTS:可以实现将阿里云表格存储OTS数据同步到数据湖中,入湖任务通过实时读取binlog方式,实时的将OTS指定表数据同步到数据湖中。

    • OSS格式转换:可以实现OSS已有数据格式进行转换,如text转parquet等。

  3. 配置数据即将入湖的位置。

  4. 配置入湖工作流的属性,设置工作流名称,设置数据湖构建服务所代理的角色,默认角色为AliyunDLFWorkFlowDefaultRole,您可以根据业务需要在RAM中自定义一个Role。

  5. 运行工作流所需要的资源,数据湖构建采用计算单元为计算单位,1个计算单元(CU,Computing Unit)包含2 vCPU,8GiB内存的计算资源。

  6. 设置工作流触发方式,手动方式或定时调度的方式。

    配置工作流

删除入湖任务

1. 进入数据入湖-入湖任务管理页面

2. 找到想要删除的入湖任务,点击右侧的删除按钮,在弹框中点击“确认”按钮。

入湖任务删除