本文介绍如何在Databricks数据洞察实现访问外部数据源的需求。

背景信息

Databricks数据洞察为了满足您在计算任务里访问您在阿里云上已有的数据,支持通过添加外部数据源的方式,打通集群到您自己VPC下的网络环境。

绑定数据源

绑定数据源的本质是打通不同VPC之间的网络,即将数据源集群所在VPC与目标Databricks数据洞察集群所在VPC的网络打通。数据源绑定之后,您可以在Notebook或Spark作业里直接访问对应数据源的数据。

说明 对于数据源绑定场景,如果多个数据源共用一个VPC下的交换机,打通其中一个数据源意味着相同交换机下的所有数据源一并打通。因此,只能打通同一Region下的数据源。
  1. 在Databricks数据洞察控制台,进入集群详情页面。
  2. 点击详情页面数据源标签,在添加数据源弹窗选择要添加的数据源类型。
  3. 在所选类型的数据源列表里勾选希望绑定的数据源类型,如果是EMR集群或ECS实例可以直接选择对应类型;更通用的方式请选择通用网络,自助选择要打通的网络和安全组。
  4. 建议补充数据源描述信息,便于辨识已绑定数据源实例。
  5. 点击下一步,确认安全组和交换机信息
说明 对于Aliyun EMR HDFS和Aliyun EMR Kafka类型数据源,目前支持各自添加一个集群 。Aliyun ECS类型可以多选,如果是自建集群(如Kafka或HDFS),只需要选择集群中的一个实例即可。

数据源访问说明

对于Aliyun EMR HDFS集群,数据源打通之后您可以通过以下方式访问集群数据。

对于HA集群,默认使用emr-cluster作为hostname。
sc.textFile("hdfs://emr-cluster/tmp/user0/airline_statistic_usa.csv").count()

对于非HA集群,请直接使用EMR HDFS集群namenode的IP访问。

sc.textFile("hdfs://192.168.xxx.xxx:9000/tmp/user0/airline_statistic_usa.csv").count()
说明 对于Aliyun EMR Kafka集群,支持通过IP或者hostename访问。

解绑数据源

解绑数据源本质是将数据源所在VPC与目标Databricks数据洞察集群VPC网络隔离。如果多个数据源共用一个交换机,解绑操作会使得当前Databricks数据洞察集群无法继续访问该交换机下所有数据源集群。

  1. 在Databricks数据洞察控制台,进入集群详情页面。
  2. 点击详情页面数据源标签。
  3. 在已绑定数据源列表里选择要解绑的交换机,点击解绑即可。