如何使用Notebook_Databricks 数据洞察（文档停止维护）(DDI)-阿里云帮助中心

开发Note

使用阿里云账号登录Databricks数据洞察控制台。
在Databricks数据洞察控制台页面，选择所在的地域（Region）。
创建的集群将会在对应的地域内，一旦创建后不能修改。
在左侧导航栏中，单击Notebook。
在Notebook区域，选择待操作的集群。

在DataInsight Notebook页面，单击创建好的Note名。

您可在单元格里编辑Spark作业。

单元格的第一行需要指定Interpreter。DataInsight Notebook目前支持以下6种Interpreter。


Interpreter	说明
`%spark`	提供了Scala环境。
`%spark.pyspark`	提供了Python环境。
`%spark.ipyspark`	提供了IPython环境。
`%spark.r`	提供了R环境，支持SparkR。
`%spark.sql`	提供了SQL环境。
`%spark.kotlin`	提供了Kotlin环境。

添加单元格

在DataInsight Notebook页面，将鼠标移动到任意已存在单元格的顶部或底部，单击+ Add Paragraph，即可在页面上添加新的单元格。

创建表

单击已创建的Note名称。

在DataInsight Notebook页面，在单元格中创建数据库。

%spark.sql

create database db_demo location 'oss://databricks-dbr/db_demo_database';

在单元格创建表。

%spark.sql

use db_demo;

create table db_bank_demo(age string, job string, marital string, education string, default string, balance string, housing string, loan string, contact string, day string, month string, duration string, campaign string, pdays string, previous string, poutcome string, y string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ';';

导入数据到数据库。

%spark.sql

use db_demo;

load data inpath 'oss://databricks-dbr/db_demo/bank/bank.csv' overwrite into table db_bank_demo;

describe db_bank_demo;

导入成功后，查看表信息如下所示。

删除单元格

在DataInsight Notebook页面，单击单元格右上角的图标。
选择Remove。
在弹出框中单击OK。
即可删除当前单元格。

运行Note

在DataInsight Notebook页面，单击单元格右上角的 run 图标，即可在Notebook内运行作业。

查看可视化运行结果

运行完Note后，在当前单元格中，可单击图形来查看运行结果。Notebook内置了多种图形来可视化Spark的DataFrame：Table、Bar Chart、Pie Chart、Area Chart、Line Chart、Scatter Chart，并且您可以单击settings对各种图形进行配置。

查看作业详情

在DataInsight Notebook页面，单击单元格右上角的SPARK JOB。
选择待查看的作业。
即可跳转至该作业的Spark UI，查看作业执行详情。

修改Interpreter模式

默认情况下Spark Interpreter的绑定模式是Shared模式，即所有的Note都是共享同一个Spark App。如果是多用户场景的话，建议设置成Isolated Per Note，这样每个Note都有自己独立的Spark App，互相不会有影响。

在DataInsight Notebook页面，单击右上角的图标。
在Settings区域，单击Interpreter。
在spark区域，单击图标，按截图设置以下参数。
单击Save。
在弹出框中单击OK。

配置Interpreter

支持以下两种方式配置Interpreter：

配置全局的Interpreter。
1. 在DataInsight Notebook页面，单击右上角的图标。
2. 在Settings区域，单击Interpreter。
3. 在spark区域，单击edit，修改相关的参数。
4. 单击Save。
5. 在弹出框中单击OK。
配置单个Note的Interpreter。
通过%spark.conf来对每个Note的Spark Interpreter进行定制化，但前提是把Interpreter设置成isolated per note。

在DataInsight Notebook页面的%spark.conf区域，可修改相关的参数。
```
%spark.conf
SPARK_HOME <PATH_TO_SPARK_HOME>

#set driver memory to 8g
spark.driver.memory 8g

#set executor number to be 6
spark.executor.instances 6
#set executor memory 4g
spark.executor.memory 4g
```

问题反馈

您在使用阿里云Databricks数据洞察过程中有任何疑问，欢迎用钉钉扫描下面的二维码加入钉钉群进行反馈。

前提条件