本文介绍文档结构化还原识别TrimDocument的语法及示例。

功能描述

文档结构化还原识别能力可以对输入文档内容进行解析,输出结构化样式(HTML或者JSON)。

前提条件

请确保您已开通文字识别服务,若未开通服务请立即开通

输入限制

  • 文档类型:当前仅支持PDF类型。
  • 文档大小:不超过10M。
  • 文档篇幅:PDF不超过2页。
  • URL地址中不能包含中文字符。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

请求参数

名称 类型 是否必选 示例值 描述
Action String TrimDocument

系统规定参数。取值:TrimDocument

FileURL String https://viapi-test.oss-cn-shanghai.aliyuncs.com/test/ant_ai/ant_doc_scanner/01.pdf

输入文档URL地址。当前仅支持上海地域的OSS链接,如何生成URL请参见生成URL

FileType String pdf

输入文档类型,目前仅支持pdf。

OutputType String html

识别结果输出类型,体现在结果中content字段的值。可选json或html。

返回数据

名称 类型 示例值 描述
RequestId String E700C1C1-57E4-413A-9987-56A5A0443CE4

请求ID。

Data Object

返回的结果数据内容。

Content String <div > <h2 > 2017 年 3 月 40 多家陶企上榜失信被执行人名单 </h2><div > 1 月 7 日,陶卫网记者根据最高人民法院及各地法院发布的失信被执行人信息统计,2019 年 12 月全国各地有 112 家陶瓷企业被列入“失信被执行人”名单,名单涉及 21 个省(市)。此次名单中,广东省的失信陶企多达 28 家。 </div>

解析文档得到的具体结构化内容。

示例

请求示例

http(s)://ocr.cn-shanghai.aliyuncs.com/?Action=TrimDocument
&FileType=pdf
&FileURL=https://viapi-test.oss-cn-shanghai.aliyuncs.com/test/ant_ai/ant_doc_scanner/01.pdf
&OutputType=html
&<公共请求参数>

正常返回示例

XML格式

HTTP/1.1 200 OK
Content-Type:application/xml

<RequestId>E700C1C1-57E4-413A-9987-56A5A0443CE4</RequestId>
<Data>
    <Content>&lt;div &gt; &lt;h2 &gt; 2017 年 3 月 40 多家陶企上榜失信被执行人名单 &lt;/h2&gt;&lt;div &gt; 1 月 7 日,陶卫网记者根据最高人民法院及各地法院发布的失信被执行人信息统计,2019 年 12 月全国各地有 112 家陶瓷企业被列入“失信被执行人”名单,名单涉及 21 个省(市)。此次名单中,广东省的失信陶企多达 28 家。 &lt;/div&gt;</Content>
</Data>

JSON格式

HTTP/1.1 200 OK
Content-Type:application/json

{
  "RequestId" : "E700C1C1-57E4-413A-9987-56A5A0443CE4",
  "Data" : {
    "Content" : "<div > <h2 > 2017 年 3 月 40 多家陶企上榜失信被执行人名单 </h2><div > 1 月 7 日,陶卫网记者根据最高人民法院及各地法院发布的失信被执行人信息统计,2019 年 12 月全国各地有 112 家陶瓷企业被列入“失信被执行人”名单,名单涉及 21 个省(市)。此次名单中,广东省的失信陶企多达 28 家。 </div>"
  }
}

查询任务结果

该接口为异步接口,当前并未返回真实的请求结果,您需要通过返回的RequestId调用GetAsyncJobResult接口来获取该接口的真实请求结果。详情请参见GetAsyncJobResult

错误码

关于文档结构化还原识别的错误码,详情请参见常见错误码

SDK参考

阿里云视觉AI能力支持使用SDK调用,具体可参见SDK总览下载安装。

安全声明

  • 请确保上传的图片或文件来源符合相应的法律法规。
  • 通过体验调试上传的临时文件有效期为1小时,在24小时后会被系统自动清理删除。