本文指引您快速完成一次完整的Databricks数据洞察的使用操作。

前提条件

已使用OSS管理控制台创建存储空间,详情请参见创建存储空间

步骤一:创建集群

  1. 使用阿里云账号登录Databricks数据洞察控制台
  2. 在Databricks数据洞察控制台页面,选择所在的地域(Region)。
    创建的集群将会在对应的地域内,一旦创建后不能修改。
  3. 输入集群名称,勾选服务条款
    其他参数如无特殊需求,可直接使用默认值。创建集群的具体步骤请参见创建集群
  4. 单击创建

步骤二:创建Note

  1. 在左侧导航栏中,单击Notebook
  2. Notebook区域,选择待操作的集群。
  3. 单击Create new note
  4. Create New Note对话框中,输入Note Name、从Default Interpreter列表,选择spark
  5. 单击Create

步骤三:创建表

  1. 单击已创建的Note名称。
  2. DataInsight Notebook页面,在单元格中创建数据库。
    %spark.sql
    create database db_demo location 'oss://databricks-dbr/db_demo_database';
    说明 在default数据库中建表会提示失败,因此需要新建一个数据库。新建数据库需要指定存储空间location,否则无法导入数据到数据库。本文的location均为示例,请您更换为您实际的location。
  3. 在单元格创建表。
    %spark.sql
    use db_demo;
    create table db_bank_demo(age string, job string, marital string, education string, default string, balance string, housing string, loan string, contact string, day string, month string, duration string, campaign string, pdays string, previous string, poutcome string, y string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ';';
  4. 导入数据到数据库。

    示例文件:bank.csv

    您可以下载此示例文件,上传到您的OSS目录并导入

    %spark.sql
    use db_demo;
    load data inpath 'oss://databricks-dbr/db_demo/bank/bank.csv' overwrite into table db_bank_demo;
    describe db_bank_demo;

    导入成功后,查看表信息如下所示。

    table

步骤四:查询数据

数据表导入后可以通过spark sql读取数据。

%spark.sql
select age, count(1) from db_bank_demo where age < ${maxAge=30} group by age order by age

步骤五:查看数据展示

DataInsight Notebook页面,查看可视化数据展示信息。

data

步骤六:查看元数据

  1. 在左侧导航栏,单击元数据
  2. 选择待查看的数据库。
    在数据库信息页面,查看数据库和表详情。information