HDFS是一个分布式文件系统,为您提供读取和写入HDFS双向通道的功能,您可以通过脚本模式配置同步任务。

背景信息

标准模式的工作空间支持数据源开发和生产环境隔离功能,您可以分别添加开发环境和生产环境的数据源,并进行隔离,以保护您的数据安全。
当底层存储为OSS时,请注意以下问题:
  • defaultFS的配置请以oss://为前缀。例如,`oss://IP:PORT``oss://nameservice`
  • 您需要在高级参数中配置连接OSS服务时需要的参数,示例如下。
    {
            "hadoopConfig":{
                "fs.oss.accessKeyId":"<yourAccessKeyId>",
                    "fs.oss.accessKeySecret":"<yourAccessKeySecret>",
                    "fs.oss.endpoint":"oss-cn-<yourRegion>-internal.aliyuncs.com"
            }
        }

操作步骤

  1. 进入数据源管理页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据集成
    4. 在左侧导航栏,单击数据源,进入工作空间管理 > 数据源管理页面。
  2. 数据源管理页面,单击右上角的新增数据源
  3. 新增数据源对话框中,选择数据源类型为HDFS
  4. 新增HDFS数据源对话框中,配置各项参数。
    HDFS
    参数 描述
    数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
    数据源描述 对数据源进行简单描述,不得超过80个字符。
    适用环境 可以选择开发生产环境。
    说明 仅标准模式工作空间会显示该配置。
    DefaultFS Hadoop HDFS文件系统中nameNode节点地址,格式为hdfs://ServerIP:Port
    连接扩展参数 HDFS插件的hadoopConfig配置参数,您可以配置与Hadoop相关的高级参数,例如Hadoop HA的配置。
  5. 单击数据集成页签下,相应资源组后的测试连通性
    数据同步时,一个任务只能使用一种资源组。您需要在每种资源组上单独测试连通性,以保证同步任务使用的数据集成资源组能够与数据源连通,否则将无法正常执行数据同步任务。详情请参见数据源测试连通性
  6. 测试连通性通过后,单击完成

后续步骤

现在,您已经学习了如何配置HDFS数据源,您可以继续下一个教程。在该教程中,您将学习如何配置HDFS插件。详情请参见HDFS ReaderHDFS Writer