全部产品
云市场

通用识别

更新时间:2018-12-17 16:15:33

本页面主要介绍服务对应的接口和返回结果中的关键字段的含义,请在阅读本页面之前,了解请求数据格式介绍,了解输入输出的通用数据格式。 此外,在本页最后,附上了通用识别服务调用的程序示例,以供参考。

请求接口

  • 云市场接口
    • 请求方法: POST
    • 请求url: 在云市场搜索印刷文字识别-通用识别,在API接口中找到调用地址

输入格式

  1. {
  2. "image": "图片以base64编码的string"
  3. "configure":
  4. "{\"min_size\" : 16, #图片中文字的最小高度,单位像素
  5. \"output_prob\" : true}" #是否输出文字框的概率
  6. }

输出格式

  1. {
  2. "request_id" : "20170301160849_918cfcae128fc919ad6d6e3b865d2973", #请求唯一标识,用于错误追踪
  3. "ret":[
  4. {
  5. \"prob\" : 0.95983, #文字区域概率
  6. "rect":{ #文字区域
  7. "angle" : 0, #文字区域角度
  8. "left" : 50, #文字区域左上角x坐标
  9. "top" : 50, #文字区域左上角y坐标
  10. "width" : 100, #文字区域宽度
  11. "height" : 40 #文字区域高度
  12. },
  13. "word":"文字内容" #文字内容
  14. },
  15. {
  16. \"prob\" : 0.95983, #文字区域概率
  17. "rect":{ #文字区域
  18. "angle" : 10, #文字区域角度
  19. "left" : 50, #文字区域左上角x坐标
  20. "top" : 50, #文字区域左上角y坐标
  21. "width" : 100, #文字区域宽度
  22. "height" : 40 #文字区域高度
  23. },
  24. "word":"文字内容" #文字内容
  25. }
  26. ],
  27. "success" : true
  28. }

倾斜框的输出格式:

opencv中旋转矩形框格式为[x_center, y_center, w, h, angle] 注意夹角 angle 定义为,把水平轴逆时针旋转,碰到第一条w边,水平轴和这条边的夹角即为angle, angle的取值范围为(-90,0]。 屏幕快照 2017-12-04 下午4.26.44.png | center | 670x399

通用识别输出的格式为[left, top, height, width, angle], 其中left=x_center - w/2, top=y_center - h/2,height=h, width=w, angle=angle. 可以通过left,top,height, width计算出(x_center, y_center),然后根据上图图示画出对应的文本框区域,转换代码参考

  1. def makeRectangle(width, height, theta, offset=(0,0)):
  2. c, s = math.cos(theta), math.sin(theta)
  3. rectCoords = [(width/2.0, height/2.0), (width/2.0, -height/2.0), (-width/2.0, -height/2.0), (-width/2.0, height/2.0)]
  4. return [(c*x-s*y+offset[0], s*x+c*y+offset[1]) for (x,y) in rectCoords]
  5. origin_center_x = left + width/2.0
  6. origin_center_y = top + height/2.0
  7. vertices = makeRectangle(width, height, angle*math.pi/180, (origin_center_x, origin_center_y))

程序示例

调用方法分为使用APPCODE调用, 使用app_key, app_secret调用。 在git中我们针对多种语言,均提供了两种调用方式的示例代码,详情请见:https://github.com/ALIBABAOCR/OCR_EXAMPLE