文档

上传全量数据

MaxCompute提供了多种数据同步的方式,可以通过DataWorks的数据集成功能,也可以通过tunnel命令的方式。更新详情见:通用数据上传场景与工具

本文以示例的全量数据为例,说明如何将数据通过tunnel本地上传至MaxCompute项目中。

操作步骤

下载示例数据

1、根据自己将要创建的实例的行业属性,找到对应的示例的全量数据下载链接。

2、将3张表下载至本地。

以新闻行业为例,oss下载链接:行为数据item数据user数据

安装MaxCompute客户端

1、后面建表,上传数据都需要使用客户端。

2、MaxCompute客户端官网文档介绍:使用客户端(odpscmd)连接

3、智能推荐帮助文档,MaxCompute授权子账户的Step2中,也有详细介绍:地址

下载客户端

在MaxCompute中创建3张表

有两种方式在MaxCompute中建表,1:DataWorks控制台,2:MaxCompute的客户端。

1、通过MaxCompute客户端建表

直接在命令行中输入建表语句,注意要分号结尾,下图以创建行为表为例

创建三张表

注意语句中不能有换行,以分号结尾

各行业的建表语句详见其数据规范的最下方:

电商行业

新闻行业

内容行业

2、通过DataWorks的控制台建表

详细见DataWorks官方文档说明:DataWorks

上传数据

1、打开MaxCompute客户端

2、tunnel命令详解:Tunnel命令

tunnel upload -acp=true -h=true /Users/xxx/workspace/data/news/behavior_news.csv behavior_airec_test/ds=20190125

由于本文创建的表为分区key为ds的分区表,因此upload的时候,behavior_airec_test/ds=20190125后面需要带上分区信息【注:ds为分区字段名】

tunnel命令

其中 -h参数为跳过本地表头(示例数据中包含表头),-acp参数为自动创建分区

3、确认数据是否成功,select一下表中的数据。

select * from behavior_airec_test where ds = 20190125;
  • 本页导读 (0)
文档反馈