DLA Spark基于云原生架构,提供面向数据湖场景的数据分析和计算。开通DLA服务后,您只需简单的配置,就可以提交Spark作业;无需关心Spark集群部署。

基本概念

  • 虚拟集群(Virtual Cluster)

    Serverless Spark采用多租户模式,Spark进程运行在安全隔离的环境中,虚拟集群是资源隔离和安全隔离的单元。

    区别于传统实体集群,虚拟集群中没有固定的计算资源,您无需配置和维护计算节点,只需根据实际业务需要分配资源额度和配置待访问目标数据所在的网络环境。同时,虚拟集群也可以配置默认的Spark作业参数,方便您统一管理Spark作业。

  • 资源规格(Resource Specification)

    为简化用户配置,DLA Spark对CPU、Memory的配置做了简化封装,您只需在DLA控制台选择"small"、"medium"或者"large"这样的资源规格即可。

    small 1Core 4GB 1CU
    medium 2Core 8GB 2CU
    large 4Core 16GB 4CU

功能限制

目前DLA Serverless Spark有以下功能限制:

  • 目前Serverless Spark只支持三种CU规格small、medium、large,后续将支持更多CU规格。
  • 一个阿里云账号最多可以创建10个虚拟集群。

如何使用Serverless Spark

  1. 虚拟集群管理
  2. 创建和执行Spark作业