PySpark及Python库如何使用_Databricks 数据洞察（文档停止维护）(DDI)-阿里云帮助中心

本文介绍如何使用阿里云 Databricks数据洞察 Notebook 进行 PySpark 开发。

重要

若要使用其他数据源进行数据开发，需开通相应服务。本示例采用OSS数据源。

步骤一：创建 Databricks数据洞察集群

登录阿里云Databricks数据洞察控制台。
创建Databricks 数据洞察集群，详情参见创建集群。

步骤二：添加依赖库并安装

根据开发需要，添加相应的依赖库

添加matplotlib库，本示例使用PyPI方式添加，详情参见Python库管理。
单击安装按钮，安装依赖到开发集群。
等待安装完成，可单击任务按钮查看。

步骤三：获取数据并上传对象存储 OSS

登录OSS管理控制台。
创建Bucket存储空间，详情请参见控制台创建存储空间。
上传文件，详情请参见控制台上传文件。

步骤四：数据开发

Notebook使用，详情参见使用Notebook。
数据开发，将以下代码写入note文件，如下图所示。

%pyspark
import matplotlib.pyplot as plt 

data = sc.textFile('oss://xxx/xxx/TEST.txt')

data = data.flatMap(lambda line: line.split(" "))

resultRdd = data.map(lambda word: (word,1)).reduceByKey(lambda a,b:a+b)

result = resultRdd.sortBy(lambda x: x[1], False)

resultColl = resultRdd.collect()

x = result.keys().collect()
y = result.values().collect()
plt.bar(x, y, color="b", label="count")
plt.minorticks_on()
plt.title("WordCount")
plt.xlabel("word")
plt.ylabel("count")
plt.legend()
z.show(plt)

单击右上角运行按钮，等待任务结束查看结果