本文为您介绍如何基于JAR资源文件,构建Flink_DataStream实时计算任务。

前提条件

完成JAR资源文件上传至Dataphin平台,详情请参见新建资源

步骤一 新建Flink_DataStream任务

  1. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>
    您可以通过以下方式,快速进入工作区:
    • 选择工作区地域后,单击快速开始相关工作区域中相应的功能模块。
    • 选择工作区地域后,单击快速进入研发项目后的DevProdBasic页签,选择相应的项目。
  2. 进入实时计算任务页面。
    1. 在Dataphin首页,单击顶部菜单栏的研发
    2. 在数据开发页面,单击项目名称后的test图标后,单击DevBasic页签,选择数据开发的项目空间(DevBasic项目)。
      如果您当前访问的是DevBasic项目,且项目空间为您的数据开发空间,则不需要选择项目空间。
    3. 可选:在数据开发页面,单击数据处理页签。
      如果在数据开发页面,系统默认进入数据处理页签,则无需再次单击数据处理页签。
    4. 数据处理页签,单击左侧导航栏ceshi实时计算任务图标。
  3. 新建Flink_DataStream计算任务。
    1. 实时计算任务页面,您可以通过以下方式,进入新建Flink_DataStream对话框。
      • 单击实时计算任务后的图标,选择FLINK_DATASTREAM
      • 单击项目名称后的图标,选择数据处理 > 实时计算任务 > FLINK_DATASTREAM
      • 开发首页的任务研发区域,单击FLINK_DATASTREAM后的图标。tset
    2. FLINK_DATASTREAM对话框,配置参数。
      tset
      参数 描述
      名称 实时计算任务的名称。 名称支持由小写英文字母、数字、下划线(_)组合组成。名称的限制如下:
      • 名称的长度范围为3~62个字符。
      • 项目内的名称不支持重复。
      • 名称仅支持以英文字母开头。
      选择目录 实时计算任务所属的目录。
      选择资源 该实时任务依赖的资源包。
      类名 使用资源的完整类名。
      资源队列 该项目所绑定的实时计算源中的资源队列。
      引擎版本 当前资源队列所支持的版本。
    3. 单击确定,完成Flink_DataStream实时计算任务的创建。

步骤二 开发Flink_DataStream任务的代码

  1. 在Flink_DataStream任务代码页面,编写任务的代码。
  2. 单击页面右上方的预编译,校验代码任务的语法及权限问题。
    如果预编译失败,您可以单击页面右上方的格式化,系统自动调整SQL代码格式。
  3. 执行以下操作,调试Flink_DataStream任务代码(为确保提交后代码的正确性,您可以通过采样数据的方式本地调试)。
    1. 在Flink_DataStream任务代码编写页面,单击页面上方的调试
    2. 配置调试数据对话框,选择左侧数据表列表下的数据表,单击页面右上方的自动抽样
    3. 填写抽样条数后,单击确定
    4. 重复执行操作步骤2~3,将所有数据表完成采样后,单击配置调试数据页面下方的确定
    5. Result页面,查看调试数据、中间结果和调试结果。

步骤三 配置任务参数

Flink_DataStream任务代码中的通用参数,您可以通过任务参数进行批量配置。

  1. 在Flink_DataStream任务代码开发页面,单击页面上方的任务参数
  2. 任务参数对话框,配置参数。
  3. 单击确定,完成任务参数的配置。

步骤四 配置Flink_DataStream任务

任务配置页面,配置Flink_DataStream任务中的资源信息。

  1. 在Flink_DataStream任务代码开发页面,单击页面上方的任务配置
  2. 任务配置对话框,您可以执行以下操作。
    tesgt
    • 修改引用Jar包类名资源队列引擎版本,详情请参见步骤一 新建Flink_DataStream任务
    • 配置资源配置类型,默认选择为系统推荐配置。您也可以选中自定义配置后,单击去配置后,根据页面提示,配置参数。
      模式 描述
      可视化配置 您可以配置资源组节点和组件节点的执行参数。
      配置资源组节点的执行参数:
      1. 在配置资源类型页面,单击可视化模式
      2. 单击某个资源组上方的图标。
      3. 在对话框中,配置参数。test
      4. 单击确定,完成资源组的执行参数的配置。
      5. 定义DAG图中所有资源组节点的执行参数后,单击页面右上角的保存
      配置资源组中组件节点的执行参数:
      1. 在配置资源类型页面,单击可视化模式
      2. 单击某个资源组上方的test图标,展开该组。
      3. 单击节点右上角的图标。
      4. 在对话框中,配置参数。trreshyah
      5. 单击确定,完成组件节点执行参数的配置。
      6. 定义DAG图中所有资源组节点的执行参数,单击页面右上角的保存
      代码模式 配置资源组节点和组件节点的执行参数:
      1. 在配置资源类型页面,单击代码模式
      2. 根据代码页面提示,定义资源组和组件节点的执行参数,单击页面右上角的保存
    • 如果资源配置类型自定义配置,则单击资源信息记录后的保存当前配置为新纪录。在保存资源记录对话框中,输入资源记录名称后,单击确定
      对已有的资源信息记录,您可以执行以下操作。
      操作 描述
      查看版本信息 单击某个记录所在行操作列下的tesga图标。
      启用记录
      1. 单击某个记录所在行操作列下的taga图标。
      2. 提示提示对话框中,单击确定
      删除记录
      1. 单击某个记录所在行操作列下的teag图标。
      2. 提示对话框中,单击确定
    • 打开自动调优开关,配置最大CU数期望最大内存,开启自动调优。
  3. 单击确定,完成Flink_DataStream任务配置。

步骤五 提交Flink_DataStream任务

  1. 在Flink_DataStream任务代码开发页面,单击页面右上方的test图标,保存Flink_DataStream任务。
  2. 在Flink_DataStream任务代码开发页面,单击页面右上方的taga图标,提交Flink_DataStream任务。
  3. 提交备注对话框,填写备注信息。
  4. 单击确定并提交,完成Flink_DataStream任务的提交。
  5. 可选:发布Flink_DataStream任务至生产环境。
    • 如果您的开发模式是Dev-Prod模式,则需要发布实时计算任务,详情请参见管理发布任务
    • 如果您的开发模式是Basic模式,则提交成功的实时计算任务,即可进入生产环境。