本文为您介绍如何基于JAR资源文件,构建Flink_DataStream实时计算任务。
前提条件
背景信息
Flink_DataStream任务仅支持处理实时任务。
步骤一:新建Flink_DataStream任务
- 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>。
您可以通过以下方式,快速进入工作区:
- 选择工作区地域后,单击快速开始相关工作区域中相应的功能模块。
- 选择工作区地域后,单击快速进入研发项目后的Dev、Prod或Basic页签,选择相应的项目。
- 在Dataphin首页,单击顶部菜单栏研发。
- 在数据开发页面,单击项目名称后的
图标后,单击Dev或Basic页签,选择数据开发的项目空间。
如果您当前访问的是Dev或Basic项目,且项目空间为您的数据开发空间,则无需选择项目空间。 - 在数据开发页面,单击数据处理。如果进入数据开发页面后,系统默认进入数据处理页签,则无需再次单击数据处理。
- 在数据处理页签,单击左侧导航栏
计算任务图标。
- 新建Flink_DataStream计算任务。
- 在计算任务页面,您可以通过以下方式,进入新建Flink_DataStream对话框。
- 单击计算任务后的
图标,选择计算任务 > FLINK_DATASTREAM。
- 单击项目名称后的
图标,选择数据处理 > 计算任务 > FLINK_DATASTREAM。
- 在开发首页的任务研发区域,单击FLINK_DATASTREAM后的
图标。
- 单击计算任务后的
- 在新建Flink_DataStream对话框,配置参数。
参数 描述 名称 实时计算任务的名称。 名称支持由小写英文字母、数字、下划线(_)组合组成。名称的限制如下: - 名称的长度范围为3~62个字符。
- 项目内的名称不支持重复。
- 名称仅支持以英文字母开头。
选择目录 实时计算任务所属的目录。 选择资源 该实时任务依赖的资源包。 类名 使用资源的完整类名。 资源队列 该项目所绑定的实时计算源中的资源队列。 引擎版本 当前资源队列所支持的版本。 - 单击确定,完成Flink_DataStream实时计算任务的创建。
- 在计算任务页面,您可以通过以下方式,进入新建Flink_DataStream对话框。
步骤二:开发Flink_DataStream任务的代码
- 在Flink_DataStream任务代码页面,编写任务的代码。
- 单击页面右上方的预编译,校验代码任务的语法及权限问题。您可以单击页面右上方的格式化,系统自动调整SQL代码格式。
步骤三:配置资源
配置Flink_DataStream任务中的资源信息。
- 在Flink_DataStream任务代码开发页面,单击页面上方的定向配置。
- 在定向配置面板的资源配置区域,您可以执行以下操作。
- 配置资源配置类型,默认选择为系统推荐配置。您也可以选中自定义配置后,单击去配置,配置参数。
模式 描述 可视化配置 您可以配置资源组节点和组件节点的执行参数。 配置资源组节点的执行参数:- 在配置资源类型页面,单击可视化模式。
- 单击资源组上方的
图标。
- 在对话框中,配置参数。
- 单击确定,完成资源组的执行参数的配置。
- 完成配置DAG图中所有资源组节点的执行参数后,单击页面右上角的保存。
配置资源组中组件节点的执行参数:- 在配置资源类型页面,单击可视化模式。
- 单击资源组上方的
图标,展开该组。
- 单击节点右上角的
图标。
- 在对话框中,配置参数。
- 单击确定,完成组件节点执行参数的配置。
- 完成配置DAG图中所有资源组节点的执行参数后,单击页面右上角的保存。
代码模式 配置资源组节点和组件节点的执行参数: - 在配置资源类型页面,单击代码模式。
- 根据代码页面提示,定义资源组和组件节点的执行参数,单击页面右上角的保存。
- 如果资源配置类型为自定义配置,则单击资源信息记录后的保存当前配置为新纪录。在保存资源记录对话框中,输入资源记录名称后,单击确定。
对已有的资源信息记录,您可以执行以下操作。
操作 描述 查看版本信息 单击某个记录操作列下的 图标,查看版本信息。
启用记录 - 单击某个记录的操作列下的
图标。
- 在提示对话框中,单击确定。
删除记录 - 单击某个记录操作列下的
图标。
- 在提示对话框中,单击确定
- 单击某个记录的操作列下的
- 打开自动调优开关,配置最大CU数和期望最大内存,开启自动调优。
- 配置资源配置类型,默认选择为系统推荐配置。您也可以选中自定义配置后,单击去配置,配置参数。
步骤四:配置依赖关系
- 在Flink_DataStream任务代码开发页面,单击页面上方的定向配置。
- 在定向配置面板的依赖关系区域,配置依赖关系。
参数 描述 自动解析 当节点的任务类型为SQL时,您可以单击自动解析,系统会解析代码中的表,并查找到与该表名相同的输出名称。输出名称所在的节点作为当前节点的上游依赖。 如果代码中引用项目变量或不指定项目,则系统默认解析为生产项目名,以保证生成调度的稳定性。例如,开发项目名称为onedata_dev
:- 如果代码里指定
select * from s_order
,则调度解析依赖为onedata.s_order
。 - 如果代码里指定
select * from ${onedata}.s_order
,则调度解析依赖为onedata.s_order
。 - 如果代码里指定
select * from onedata.s_order
,则调度解析依赖为onedata.s_order
。 - 如果代码里指定
select * from onedata_dev.s_order
,则调度解析依赖为onedata_dev.s_order
。
上游依赖 通过执行如下操作,添加该节点任务调度时依赖的上游节点: - 单击手动添加上游。
- 在新建上游依赖对话框中,您可以通过以下两种方式搜索依赖节点:
- 输入所依赖节点的输出名称的关键字进行搜索节点。
- 输入virtual搜索虚拟节点(每个租户或企业在初始化时都会有一个根节点)。
说明 节点的输出名称是全局唯一的,且不区分大小写。 - 单击确定新增。
图标,删除已添加的依赖节点。
当前节点 通过执行如下操作,设置当前节点的输出名称,根据需要您可以设置多个输出名称,供其他节点依赖使用: - 单击手动添加输出。
- 在新增当前节点输出对话框中,填写输出名称。输出名称的命名规则请尽量统一,一般命名规则为
生成项目名.表名
且不区分大小写,以标识本节点产出的表,同时其他节点更好地选择调度依赖关系。例如,开发项目名称为
onedata_dev
,建议将输出名称设置为onedata.s_order
。如果您将输出名称设置为onedata_dev.s_order
,则仅限代码select * from onedata_dev.s_order
能解析出上游依赖节点。 - 单击确定新增。
- 单击操作列下的
图标,删除已添加的输出名称。
- 如果该节点已提交或发布。且被任务所依赖(任务已提交),则单击操作列下的
图标,查看下游节点。
- 如果代码里指定
步骤五:配置任务参数
Flink_DataStream任务代码中的通用参数,您可以通过任务参数进行批量配置。
- 在Flink_DataStream任务代码开发页面,单击页面上方的定向配置。
- 在定向配置面板,任务参数配置区域,配置参数。
步骤六:提交或发布Flink_DataStream任务
- 在Flink_DataStream任务代码开发页面,单击页面右上方的
图标,保存Flink_DataStream任务。
- 在Flink_DataStream任务代码开发页面,单击页面右上方的
图标,提交Flink_DataStream任务。
- 在提交备注对话框,填写备注信息。
- 单击确定并提交,完成Flink_DataStream任务的提交。
- 可选:发布Flink_DataStream任务至生产环境。
- 如果您的开发模式是Dev-Prod模式,则需要发布实时计算任务,详情请参见管理发布任务。
- 如果您的开发模式是Basic模式,则提交成功的实时计算任务,即可进入生产环境。
在文档使用中是否遇到以下问题
更多建议
匿名提交