如何使用Databricks数据洞察控制台创建集群_Databricks 数据洞察（文档停止维护）(DDI)-阿里云帮助中心

本节介绍如何使用Databricks数据洞察控制台创建集群。

前提条件

已注册阿里云账号，并完成实名认证。详情请参见阿里云账号注册流程。

操作步骤

使用阿里云账号登录Databricks数据洞察控制台。
在Databricks数据洞察控制台页面，选择所在的地域（Region）。
创建的集群将会在对应的地域内，一旦创建后不能修改。
在左侧导航栏中，单击集群。
在集群管理页面，单击创建集群。

设置基础信息。

参数	描述
集群名称	集群的名字。长度限制为1~64个字符，仅可使用中文、字母、数字、连接号（-）和下划线（_）
Knox账号	为了更好的安全性，Web UI访问（如Zeppelin Notebook、Spark UI、Ganglia UI）需要Knox账号和密码，来保障您的账号安全。若无RAM子账号，请前往RAM控制台进行创建
Knox密码	两次确认Knox密码，登录Web UI时候使用，请您牢记
Databricks Runtime版本	Databricks Runtime的版本信息，版本号与Databricks官方保持一致，包含Scala和Spark的版本。版本详情请参见Databricks Runtime版本说明
Python版本	默认版本为Python 3
付费类型	Databricks数据洞察支持包年包月和按量付费两种付费类型
可用区	可用区为在同一地域下的不同物理区域，可用区之间内网互通。一般选择默认的可用区即可，亦可选择与已购阿里云产品部署在同一个可用区。
ECS实例	由Master和Worker两种类型的节点组成： Master节点：主要负责集群资源管理和作业调度。默认节点个数为1。 Worker节点：集群的计算节点，主要负责作业的执行。最小节点数量为3。
元数据选择	推荐选择数据湖元数据。数据湖元数据：表示元数据存储在数据湖中。如果没有开通数据湖构建服务，需要单击请前往开通。参见数据湖元数据管理统一meta数据库：表示元数据存储在集群本地环境的MySQL数据库中独立RDS MySQL：表示使用自建的阿里云RDS作为元数据库，更多信息请参见共享独立RDS元数据库

设置高级信息。

高级信息包括如下两方面：

Spark设置

参数	描述
Spark配置	输入Spark的配置信息。配置的属性值将会更改到spark-defaults.conf文件中。支持的配置列表为spark.apache.org/docs/latest/configuration.html#spark-properties
环境变量	您可以自定义Spark执行的环境变量。配置的属性将会更新到spark-env.sh中。

服务目录

参数

描述

类型

包括以下两种类型：

默认值
自定义

OSS路径

该目录用来存放集群服务组件的临时文件等。

该目录会作为产品的根目录来使用。当用户有多个集群时，不需要为每个集群单独指定服务目录。不同Region需要有不同的服务目录，产品会为每个集群在服务目录下创建子目录，即 oss://${specified-bucket-or-dir}/ddi-${clusterid}/。

阅读并勾选服务条款。
单击创建。
集群创建需要时间，当状态更新为空闲时表示创建成功，请您耐心等待。