本文为您介绍如何基于Dataphin构建MapReduce类型的离线计算任务。

前提条件

完成JAR资源包的上传,详情请参见新建资源

背景信息

MapReduce任务中引用到的JAR资源包需提前创建,因此需要您在资源管理中上传JAR资源包,然后在MapReduce代码任务中引用。

操作步骤

  1. 登录Dataphin控制台
  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>
    您可以通过以下方式,快速进入数据开发模块:
    • 单击快速开始相关工作区域的数据研发
    • 单击快速进入研发项目区域的DevBasic项目,选择开发数据的项目空间。
    说明
    • 如果您通过快速开始相关工作进入数据开发模块,则跳过步骤3.i。
    • 如果您通过快速进入研发项目进入数据开发模块,则跳过步骤3.ii。
  3. 进入计算任务页面。
    1. 在Dataphin首页,单击顶部菜单栏的研发
    2. 在数据开发页面,单击项目名称后的test图标后,单击DevBasic页签,选择数据开发的项目空间(DevBasic项目)。
      如果您当前访问的是DevBasic项目,且项目空间为您的数据开发空间,则不需要选择项目空间。
    3. 可选:在数据开发页面,单击数据处理页签。
      如果进入数据开发页面后,系统默认进入数据处理页签,则无需再次单击数据处理页签。
    4. 数据处理页签,单击左侧导航栏agaga计算任务图标。
  4. 计算任务页面,进入新建MapReduce任务文件对话框。
    • 单击计算任务后的图标,选择MAXC任务 > MAX_COMPUTE_MR
    • 单击项目名称后的图标,选择数据处理 > 计算任务 > MAX_COMPUTE_MR
    • 开发首页,单击MAXC_MR后的图标。
  5. 编写并运行代码。
    1. 新建文件对话框,配置参数。
      fagaga
      参数 描述
      名称 填写离线计算任务的名称,例如MR
      调度类型 选择任务的调度类型。调度类型包括:
      • 周期性节点,自动参与系统的周期性调度。
      • 手动节点,需要手动触发任务的运行。
      描述 填写对任务的简单描述。
      选择目录 选择离线计算任务的目录。
    2. 单击确定
    3. 代码编写页面,编写MapReduce离线计算任务的代码,详情请参见MapReduce
      faga代码示例如下:
      @resource_reference{"mr_odps.jar"}
      add jar mr_odps.jar as momo.jar -f;
      jar -resources  momo.jar -classpath mr_odps.jar hive.WordCountOdps wc_in wc_out;
    4. 检查代码。
      代码编写完成后,单击预编译,系统帮助您检查编写的SQL代码的语法。

      如果预编译失败,您可以单击页面上方的格式化,系统自动帮助您调整语法格式。调整完格式,您可以单击刷新,刷新页面上的代码。

    5. 代码编写完成后,单击页面右上方的执行,运行代码。
  6. 可选:配置调度参数。
    • 如果离线计算任务的调度类型为周期性节点,则需要配置调度参数,详情请参见调度配置
    • 如果离线计算任务的调度类型为手动节点,需要手动触发任务的调度。
  7. 在代码编写页面,保存并提交MapReduce任务。
    1. 单击页面右上方的图标,保存代码。
    2. 单击页面右上方的图标,提交代码。
    3. 提交备注页面,填写备注信息。
    4. 单击确定并提交
  8. 可选:发布MapReduce任务。
    • 如果您的开发模式是Dev-Prod模式,则需要发布MapReduce任务,详情请参见管理发布任务
    • 如果您的开发模式是Basic模式,则提交成功后的MapReduce任务,即可参与生产环境的调度。