在正式使用MaxCompute项目处理数据前,您需要根据业务需要选择开发工具并准备相应的环境。本文为您介绍需要准备的环境及安装的工具信息。

前提条件

已创建MaxCompute项目。更多创建MaxCompute项目操作,请参见创建MaxCompute项目

背景信息

MaxCompute支持的工具如下。

工具 是否需要手动安装 应用场景
查询编辑器(MaxCompute控制台)
  • 初次体验及测试MaxCompute的使用者:可以通过查询编辑器,使用公开数据集快速体验MaxCompute的核心功能。
  • 数据分析师:您可以通过查询编辑器查询数据,并通过分析模式的Web Excel对查询结果进行分析。您也可以下载查询结果至本地,减少数据的流动,更好的保障数据安全。
  • 安全管理员:MaxCompute项目右侧的项目权限管理提供了角色权限管理功能,但是正在试用过程中,很多场景需要通过命令行进行权限管理。安全管理员可通过查询编辑器快速执行大部分安全命令操作。
MaxCompute客户端(odpscmd) MaxCompute的命令行客户端,适用于任意场景,使用者可以专注于编写命令完成数据处理。
DataWorks 基于MaxCompute项目以可视化方式实现全方位的数据开发、数据集成、数据服务等功能。当需要周期性调度作业时,推荐您使用该工具。
MaxCompute Studio 基于流行的集成开发平台IntelliJ IDEA的开发插件,帮助您便捷、快速地进行数据开发。如果您可以熟练使用IntelliJ IDEA,推荐您使用该工具。

准备环境

上述工具的运行环境要求如下。

工具 环境要求
查询编辑器(MaxCompute控制台) 推荐使用最新版谷歌浏览器。
MaxCompute客户端 安装Java 8或以上版本。
DataWorks 推荐使用最新版谷歌浏览器。
MaxCompute Studio
  • Window、macOS或Linux系统客户端。
  • 安装IntelliJ IDEA的18.2.4以上版本。支持Ultimate版本、PyCharm版本和免费的Community版本
  • 已安装JRE 1.8。最新的IntelliJ IDEA版本捆绑了JRE 1.8,无需单独安装。
  • 已安装JDK 1.8。(此项仅在需要开发和调试Java UDF时安装。)
    说明 MaxCompute Studio从0.28.0版本起开始支持JDK 1.9,之前的版本只支持JDK 1.8。

安装并配置MaxCompute客户端

说明 客户端从v0.27.0版本开始支持MaxCompute 2.0新数据类型,推荐使用新数据类型。支持的数据类型列表,请参见2.0数据类型版本

安装并配置MaxCompute客户端的操作流程如下:

  1. 下载MaxCompute客户端安装包
  2. 解压下载的安装包文件,得到binconflibplugins文件夹。
  3. 进入conf文件夹,配置odps_config.ini文件。
    odps_config.ini文件内容如下。
    project_name=
    access_id=
    access_key=
    end_point=
    log_view_host=
    https_check=
    # confirm threshold for query input size(unit: GB)
    data_size_confirm=
    # this url is for odpscmd update
    update_url=
    # download sql results by instance tunnel
    use_instance_tunnel=
    # the max records when download sql results by instance tunnel
    instance_tunnel_max_record=
    # IMPORTANT:
    #   If leaving tunnel_endpoint untouched, console will try to automatically get one from odps service, which might charge networking fees in some cases.
    #   Please refer to 配置Endpoint
    # tunnel_endpoint=
    
    # use set.<key>=
    # e.g. set.odps.sql.select.output.format=

    odps_config.ini文件中使用井号(#)作为注释。参数详细信息如下。

    参数 是否必填 描述 示例
    project_name 访问的目标MaxCompute项目名称。

    如果您创建了标准模式的工作空间,在配置project_name时,请注意区分生产环境与开发环境(_dev)的项目名称,请参见简单模式和标准模式的区别

    您可以登录MaxCompute控制台,在项目管理页签获取MaxCompute项目名称。

    doc_test_dev
    access_id 阿里云账号或RAM用户的AccessKey ID。

    您可以进入AccessKey管理页面获取AccessKey ID。

    access_key AccessKey ID对应的AccessKey Secret。

    您可以进入AccessKey管理页面获取AccessKey Secret。

    end_point MaxCompute服务的连接地址。

    您需要根据创建MaxCompute项目时选择的地域以及网络连接方式配置Endpoint。各地域及网络对应的Endpoint值,请参见Endpoint

    注意 如果Endpoint配置有误,会出现无法访问错误,请务必仔细确认。
    http://service.cn-hangzhou.maxcompute.aliyun.com/api
    log_view_host Logview地址。您可以通过该地址查看作业的详细运行信息,并为报错处理提供依据。固定取值为:http://logview.odps.aliyun.com。
    说明 推荐您配置该参数,如果不配置该参数,在作业报错时无法快速定位问题。
    http://logview.odps.aliyun.com
    https_check 是否开启HTTPS访问机制,对访问MaxCompute项目的请求进行加密。取值范围如下:
    • True:采用HTTPS机制。
    • False:采用HTTP机制。

    默认值为False。

    True
    data_size_confirm 输入数据量的最大值,单位为GB。取值范围无限制。推荐设置为100 GB。 100
    update_url 预留参数,暂无需关注。
    use_instance_tunnel 是否使用InstanceTunnel下载SQL执行结果。取值范围如下:
    • True:使用InstanceTunnel下载SQL执行结果。
    • False:不使用InstanceTunnel下载SQL执行结果。

    默认值为False。

    True
    instance_tunnel_max_record 客户端返回的SQL执行结果的最大记录数。如果use_instance_tunnel值为True,需要配置该参数。最大值为10000。 10000
    tunnel_endpoint Tunnel服务的外网访问链接。如果您未配置Tunnel Endpoint,Tunnel会自动路由到MaxCompute服务所在网络对应的Tunnel Endpoint。如果您配置了Tunnel Endpoint,则以配置为准,不进行自动路由。

    各地域及网络对应的Tunnel Endpoint值,请参见Endpoint

    http://dt.cn-hangzhou.maxcompute.aliyun.com
    set.<key> 设置MaxCompute项目的属性。

    更多属性信息,请参见属性列表

    set.odps.sql.decimal.odps2=true

安装并配置MaxCompute Studio

安装并配置MaxCompute Studio的操作流程如下:

  1. 安装IntelliJ IDEA
    MaxCompute Studio是集成在IntelliJ IDEA工具上的插件,需要先安装IntelliJ IDEA。
  2. 安装MaxCompute Studio
    在IntelliJ IDEA上安装MaxCompute Studio插件。
  3. 配置MaxCompute Studio
    配置MaxCompute Studio的配置项信息。
  4. 连接MaxCompute项目
    通过MaxCompute Studio连接MaxCompute项目,即可在MaxCompute Studio上查看MaxCompute项目的信息。

后续步骤

至此,您已完成准备工作,请根据您选择的开发工具,参照指引执行后续操作,快速完成一个完整的MaxCompute使用链路: