在项目中,您可以通过创建作业来进行任务开发。本文为您介绍如何创建作业、设置和删除作业。

前提条件

已创建项目,详情请参见新建项目

创建作业

  1. 进入项目空间页面。
    1. 使用阿里云账号登录Databricks数据洞察控制台
    2. 在Databricks数据洞察控制台页面,选择所在的地域(Region)。
      创建的集群将会在对应的地域内,一旦创建后不能修改。
    3. 在左侧导航栏,单击项目空间
  2. 项目空间页面,单击待操作项目所在行的作业编辑
  3. 作业编辑区域,在需要操作的文件夹上单击右键,选择新建作业
    新建作业
  4. 新建作业对话框中,输入作业名称作业描述,选择作业类型
    说明 创建作业时作业类型一经确定,不能修改。
  5. 单击确定
  6. 在作业内容区域,填写该作业需要提供的命令行参数。
    例如,输入以下命令,读取Zeppelin中建立的数据表,将结果直接写入OSS。
    spark.sql("USE db_demo")
    val df = spark.sql("select age, count(1) as age_count from db_bank_demo where age < 50 group by age order by age")
    df.write.save("oss://<mytest>/db_demo_file")
  7. 单击右上角的保存
  8. 单击右上方的运行
    执行作业。

设置作业

新建作业时、或者新建作业后,可对作业进行以下设置。

  1. 单击页面右上角的作业设置
  2. 作业设置页面,设置基础信息。
    参数 描述
    作业概要 作业描述:可修改作业的描述。
    运行资源 单击右侧的加号图标,添加作业执行所依赖的JAR包或HDFS等资源。您需要将资源先上传至OSS,然后在运行资源中直接添加即可。
    配置参数 指定作业代码中所引用的变量的值。您可以在代码中引用变量,格式为${变量名}

    单击右侧的加号图标,添加Key和Value。其中,Key为变量名,Value为变量的值。

  3. 作业设置页面,单击高级设置
    配置项 说明
    模式
    • 提交节点: :目前只支持在在Master节点提交,表示作业在分配的机器上直接运行。
    • 预期最大运行时长:0~10800秒。
    环境变量 添加作业执行的环境变量,也可以在作业脚本中直接export环境变量。
    调度参数 设置作业运行调度队列、内存、虚拟核数、优先级和执行用户等信息。当未设置这些参数时,作业会直接采用集群的默认值。

删除作业

创建作业后,不再需要当前作业时可删除。

  1. 在项目空间页面,单击待操作项目所在行的删除
  2. 删除对话中,单击确定