文档

配置FTP输入组件

更新时间:

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内,进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。

前提条件

操作步骤

  1. 请参见离线管道组件开发入口,进入离线单条管道脚本的开发页面。

  2. 按照以下操作指引,进入FTP输入配置对话框。

    单击组件库->单击输入->拖动FTP输入组件至画布->单击配置image图标

    image

  3. FTP输入配置对话框,配置参数。

    FTP输入组件支持的文件类型包括TextCSVxlsxlsx。不同文件类型配置不同,详情如下:

    • Text和CSV参数配置说明

      参数

      说明

      基础配置

      步骤名称

      根据当前组件的使用场景,填写名称。

      数据源

      选择数据源。选取Dataphin系统中已配置的数据源,且数据源需同时具备以下两个条件:

      • 数据源类型为FTP数据源SFTP数据源FTPS数据源

      • 执行属性配置的账号具有该数据源的同步读权限,如果没有权限,则需要申请数据源权限,详情请参见申请、续期和交还数据源权限

      同时您可以单击数据源后的新建,进入规划模块添加数据源,详情请参见创建FTP数据源

      文件路径

      填写文件路径。支持多个文件路径输入,用(;)分割。支持通配符,例如:指定/dataphin/*代表读取dataphin目录下所有的文件。

      文件类型

      选择TextCSV文件类型。xlsxlsx文件类型,请参见xls和xlsx参数配置说明

      文件不存在时

      忽略:当读取的文件不存在时,忽略该文件,并继续读取其他文件。

      置任务失败:当读取的文件不存在时,终止该任务并置失败。

      数据内容起始行

      设置输入组件读取数据的起始行。默认为1,从第一行开始为数据内容。若需忽略前N行,则将数据内容起始行设置为N+1。

      高级配置

      切分方式

      Text支持分隔符切分字段长度切分,CSV支持分隔符切分。

      • 分隔符切分:将会根据字段分隔符行分隔符切分行与字段。

      • 字段长度切分:仅支持Text文件格式。文件的每一行将被视为一个长String字符串,按起始和结束的字符位置提取字段。

      行分隔符

      填写文件存储行分隔符。如果您没有填写,则系统默认将行分隔符填写为换行符号(\n)。

      说明

      Text类型不支持自定义行分隔符。

      字段分隔符

      切分方式选择分隔符切分时,需要填写文件存储字段分隔符。如果您没有填写,则系统默认将字段分隔符填写为英文逗号(,)。

      文件编码

      选择文件编码。系统支持的文件编码包括UTF-8GBK

      压缩格式

      如果文件有压缩,请选择对应的压缩格式,以便Dataphin进行解压处理。

      更多配置

      输入读取数据的其他控制配置项。例如使用textReaderConfig控制text文件的读取,配置示例如下。

      {
        "textReaderConfig":{
        "useTextQualifier":false, //是否存在限定符
        "textQualifier":"\"",
        "caseSensitive":true, //限定符是否区分大小写
        "trimWhitespace":false //是否去除每列内容前后的空白符
        }
      }

      输出字段

      为您展示输出字段。 您可以手动添加输出字段:

      • 单击批量添加 ,以JSON格式批量配置,例如。

        [{  "name":"cf1:a",  "type":"String" },
        {  "name":"cf1:b",  "type":"String" }]
      • 单击新建输出字段,根据页面提示填写来源序号字段及选择类型

      同时您也可以对已添加的字段执行如下操作:

      • 单击操作列下的agag图标,编辑已有的字段。

      • 单击操作列下的agfag图标,删除已有的字段。

    • xls和xlsx参数配置说明

      参数

      说明

      步骤名称

      根据当前组件的使用场景,填写名称。

      数据源

      选择数据源。选取Dataphin系统中已配置的数据源,且数据源需同时具备以下两个条件:

      • 数据源类型为FTP数据源SFTP数据源FTPS数据源

      • 执行属性配置的账号具有该数据源的同步读权限,如果没有权限,则需要申请数据源权限,详情请参见申请、续期和交还数据源权限

      同时您可以单击数据源后的新建,进入规划模块添加数据源,详情请参见创建FTP数据源

      文件路径

      填写文件路径。支持多个文件路径输入,用(;)分割。支持通配符,例如:指定/dataphin/*代表读取dataphin目录下所有的文件。

      文件类型

      选择xlsxlsx文件类型。TextCSV文件类型,请参见Text和CSV参数配置说明

      文件不存在时

      • 忽略:当读取的文件不存在时,忽略该文件,并继续读取其他文件。

      • 置任务失败:当读取的文件不存在时,终止该任务并置失败。

      sheet选择

      支持按名称按索引两种方式。若读取多个sheet,则需保持数据格式一致。

      • sheet名称:可读取多张sheet,用英文逗号(,)隔开,也可以输入*读取所有sheet。*和英文逗号不可混用。例如:sheet1,sheet2。

      • sheet索引:可读取多张sheet,用英文逗号(,)隔开,也可以输入*读取所有sheet。*和英文逗号不可混用。例如:可以用0,3,7-9指定单张或连续的sheet。

      数据内容起始行

      设置输入组件读取数据的起始行。默认为1,从第一行开始为数据内容。若需忽略前N行,则将数据内容起始行设置为N+1

      数据内容结束行

      若不指定行数,则读取到最后一行数据,数据内容结束行不少于数据内容起始行

      导出sheet名

      可选择导出不导出。选择导出则新增一个导出字段,字段内容为该行数据的来源sheet名称。

      文件编码

      选择文件编码。系统支持的文件编码包括UTF-8GBK

      压缩格式

      如果文件有压缩,请选择对应的压缩格式,以便Dataphin进行解压处理。

      输出字段

      为您展示输出字段。 您可以手动添加输出字段:

      说明

      切分方式为字段长度切分时,您可以单击切分效果预览,并在对话框中输入测试字符串,起始字符位置、结束字符位置,进行切分效果预览。

      • 单击批量添加 ,以JSON格式批量配置,例如。

        [{  "name":"cf1:a",  "type":"String" },
        {  "name":"cf1:b",  "type":"String" }]
      • 单击新建输出字段,根据页面提示填写来源序号字段及选择类型。Excel文件的来源序号可填写该字段所在列的字母序号;也可填写该列的数字序号,序号从0开始。

      同时您也可以对已添加的字段执行如下操作:

      • 单击操作列下的agag图标,编辑已有的字段。

      • 单击操作列下的agfag图标,删除已有的字段。

  4. 单击确认,完成FTP输入组件配置。

  • 本页导读 (0)
文档反馈