通用表格识别 |
您所在的位置:网站首页 › 华为手机智能识别文字怎么设置 › 通用表格识别 |
功能介绍
识别表格图片中的文字内容,并将识别的结果以JSON格式返回给用户。返回结果将图片区域(words_region)划分为两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 对于相同板式的图片,可以使用ModelArts Pro服务提供的文字识别套件,零代码搭建出专属的API,详细操作请参见视频指导。 图1 通用表格示例图![]() 请参见如何调用API。 前提条件在使用之前,需要您完成服务申请和认证鉴权,具体操作流程请参见开通服务和认证鉴权章节。 ![]() 用户首次使用需要先申请开通。服务只需要开通一次即可,后面使用时无需再次申请。如未开通服务,调用服务时会提示ModelArts.4204报错,请在调用服务前先进入控制台开通服务,并注意开通服务区域与调用服务的区域保持一致。 URIPOST /v2/{project_id}/ocr/general-table 表1 路径参数参数 是否必选 说明 endpoint 是 终端节点,即调用API的请求地址。 不同服务不同区域的endpoint不同,您可以从终端节点中获取。 例如,OCR服务在“华北-北京四”区域的“endpoint”为“ocr.cn-north-4.myhuaweicloud.com”。 project_id 是 项目ID,您可以从获取项目ID中获取。 请求参数 表2 请求Header参数参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。 用于获取操作API的权限。获取Token接口响应消息头中X-Subject-Token的值即为Token。 Content-Type 是 String 发送的实体的MIME类型,参数值为“application/json”。 Enterprise-Project-Id 否 String 企业项目ID。OCR支持通过企业项目管理(EPS)对不同用户组和用户的资源使用,进行分账。 获取方法:进入“企业项目管理”页面,单击企业项目名称,在企业项目详情页获取Enterprise-Project-Id(企业项目ID)。 企业项目创建步骤请参见用户指南。 说明:创建企业项目后,在传参时,有以下三类场景。 携带正确的ID,正常使用OCR服务,账单归到企业ID对应的企业项目中。 携带错误的ID,正常使用OCR服务,账单的企业项目会被分类为“未归集”。 不携带ID,正常使用OCR服务,账单的企业项目会被分类为“未归集”。 表3 请求Body参数参数 是否必选 类型 说明 image 否 String 该参数与url二选一。 图片的Base64编码,要求Base64编码后大小不超过10MB。 图片最短边不小于15px,最长边不超过8192px,支持JPEG、JPG、PNG、BMP、TIFF格式。 图片Base64编码示例如/9j/4AAQSkZJRgABAg...,带有多余前缀会产生The image format is not supported报错。 url 否 String 该参数与image二选一。图片的url路径,目前支持: 公网http/https url例如https://support.huaweicloud.com/api-ocr/zh-cn_image_0282767866.png OBS提供的url,使用OBS数据需要进行授权。包括对服务授权、临时授权、匿名公开授权,详情参见配置OBS访问权限。 说明: 接口响应时间依赖于图片的下载时间,如果图片下载时间过长,会返回接口调用失败。 请保证被检测图片所在的存储服务稳定可靠,推荐使用OBS服务存储图片数据。 url中不能存在中文字符,若存在,中文需要进行utf8编码。return_text_location 否 Boolean 返回文本块坐标及单元格坐标信息,可选值如下所示。 true:返回文本块和单元格坐标 false:不返回如果未传入该参数时默认为false,即不返回。 return_char_location 否 Boolean 返回单字符的坐标信息,可选值包括: true:返回单字符的坐标 false:不返回未传入该参数时默认为false,即不返回。如果此参数为true时,return_text_location必须为true return_confidence 否 Boolean 是否返回置信度的开关,可选值如下所示。 true:返回置信度 false:不返回置信度如果未传入该参数,系统默认为“false”,即不返回置信度。 return_excel 否 Boolean 是否返回表格转换Microsoft Excel的Base64编码字段。可选值包括: true: 返回'excel'字段,表示xlsx格式的表格识别结果的Base64编码 false: 不返回。默认为false对返回的Excel编码,可用Python函数 base64.b64decode解码后保存为.xlsx文件。 return_rectification_matrix 否 Boolean 可选值包括: true:返回透视变换矩阵 false:不返回未传入该参数时默认为false,即不返回透视变换矩阵。 with_borders 否 Boolean 可选值包括: true:输入图像仅包含有线表格,仅进行有线表格识别。 false: 输入图像可能包含无线表格,同时进行有线表格与无线表格识别。未传入该参数时默认为false,即同时进行有线表格与无线表格识别。当确认输入仅包含有线表格时,该参数设为true可达到更优识别效果。 响应参数![]() 根据识别的结果,可能有不同的HTTP响应状态码(status code)。例如,200表示API调用成功,400表示调用失败,详细的状态码和响应参数说明如下。 状态码: 200 表4 响应Body参数参数 参数类型 描述 result GeneralTableResult object 调用成功时表示调用结果。 调用失败时无此字段。 表5 GeneralTableResult参数 参数类型 描述 words_region_count Integer 文字区域数目。 words_region_list Array of WordsRegionList objects 文字区域识别结果列表,输出顺序从左到右,先上后下。 excel String 表格图像转换为excel的base64编码,图像中的文字和表格按位置写入excel。对返回的excel编码可用base64.b64decode解码并保存为.xlsx文件。 表6 WordsRegionList参数 参数类型 描述 type String 文字识别区域类型。 text:文本识别区域; table:表格识别区域。words_block_count Integer 子区域识别文字块数目。 words_block_list Array of GeneralTableWordsBlockList objects 子区域识别文字块列表,输出顺序从左到右,先上后下。 表7 GeneralTableWordsBlockList参数 参数类型 描述 words String 文字块识别结果。 confidence Float 字段的平均置信度,置信度越大,表示本次识别的对应字段的可靠性越高,在统计意义上,置信度越大,准确率越高。置信度由算法给出,不直接等价于对应字段的准确率。 location Array 文字块位置信息,列表形式,分别表示文字块4个顶点的x, y坐标;坐标原点为图片左上角,x轴沿水平方向,y轴沿竖直方向。 words_list Array of WordsListIem objects 单元格内文字段列表。输出顺序从左到右,从上到下。仅当入参"return_text_location"为true时存在。 rows Array of integers 文字块占用的行信息,编号从0开始,列表形式,数据类型为Integer。仅在表格区域内有效,即type字段为"table"时该字段有效。 columns Array of integers 文字块占用的列信息,编号从0开始,列表形式,数据类型为Integer。仅在表格区域内有效,即type字段为"table"时该字段有效。 cell_location Array 单元格位置信息,列表形式,分别表示单元格4个顶点的x, y坐标;坐标原点为图片左上角,x轴沿水平方向,y轴沿竖直方向。 表8 WordsListIem参数 参数类型 描述 words String 文字块识别结果。 confidence Float 字段的平均置信度,置信度越大,表示本次识别的对应字段的可靠性越高,在统计意义上,置信度越大,准确率越高。置信度由算法给出,不直接等价于对应字段的准确率。 location Array 文字块位置信息,列表形式,分别表示文字块4个顶点的x, y坐标;坐标原点为图片左上角,x轴沿水平方向,y轴沿竖直方向。 char_list Array of CharListIem objects 单元格内文字段列表。输出顺序从左到右,从上到下。仅当入参"return_text_location"和"return_char_location"同时为true时存在。 表9 CharListIem参数 参数类型 描述 char String 单字符识别结果。 char_confidence Float 单字符的置信度,置信度越大,表示本次识别的文字的可靠性越高,在统计意义上,置信度越大,准确率越高。置信度由算法给出,不直接等价于对应字段的准确率。 char_location Array 单字符的位置信息,列表形式,分别表示文字块4个顶点的x, y坐标;坐标原点为图片左上角,x轴沿水平方向,y轴沿竖直方向。 状态码: 400 表10 响应Body参数参数 参数类型 描述 error_code String 调用失败时的错误码,具体请参见错误码。 当出现错误码“ModelArts.4204”时,请参考为什么调用API时提示“ModelArts.4204”?章节。 调用成功时不返回此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 请求示例![]() 例如,通用表格识别服务部署在“华北-北京四”区域的“endpoint”为“ocr.cn-north-4.myhuaweicloud.com”或“ocr.cn-north-4.myhuaweicloud.cn”,请求URL为“https://ocr.cn-north-4.myhuaweicloud.com/v2/{project_id}/ocr/general-table”,“project_id”为项目ID,获取方法请参见获取项目ID。 如何获取Token请参见认证鉴权。 传入表格图片的base64编码文字识别,并不返回置信度信息POST https://{endpoint}/v2/{project_id}/ocr/general-table Request Header: Content-Type: application/json X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request Body: { "image":"/9j/4AAQSkZJRgABAgEASABIAAD/4RFZRXhpZgAATU0AKgAAAAg...", "return_confidence":false } 传入表格图片的url进行文字识别,并不返回置信度信息POST https://{endpoint}/v2/{project_id}/ocr/general-table Request Header: Content-Type: application/json X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request Body: { "url":"https://BucketName.obs.xxxx.com/ObjectName", "return_confidence":false } 响应示例状态码: 200 成功响应样例 { "result" : { "words_region_count" : 2, "words_region_list" : [ { "type" : "text", "words_block_count" : 1, "words_block_list" : [ { "words" : "文字区域识别文字块1", "confidence" : 0.9991 } ] }, { "type" : "table", "words_block_count" : 2, "words_block_list" : [ { "words" : "表格区域识别文字块1", "confidence" : 0.9942, "rows" : [ 0 ], "columns" : [ 0 ] }, { "words" : "表格区域识别文字块2", "confidence" : 0.914, "rows" : [ 0 ], "columns" : [ 1, 2 ] } ] } ] } }状态码: 400 失败响应样例 { "result" : { "error_code" : "AIS.0103", "error_msg" : "The image size does not meet the requirements." } } SDK代码示例SDK代码示例如下。 Java Python Go 更多 传入表格图片的base64编码进行文字识别,并不返回置信度信息 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 package com.huaweicloud.sdk.test; import com.huaweicloud.sdk.core.auth.ICredential; import com.huaweicloud.sdk.core.auth.BasicCredentials; import com.huaweicloud.sdk.core.exception.ConnectionException; import com.huaweicloud.sdk.core.exception.RequestTimeoutException; import com.huaweicloud.sdk.core.exception.ServiceResponseException; import com.huaweicloud.sdk.ocr.v1.region.OcrRegion; import com.huaweicloud.sdk.ocr.v1.*; import com.huaweicloud.sdk.ocr.v1.model.*; public class RecognizeGeneralTableSolution { public static void main(String[] args) { // The AK and SK used for authentication are hard-coded or stored in plaintext, which has great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted during use to ensure security. // In this example, AK and SK are stored in environment variables for authentication. Before running this example, set environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment String ak = System.getenv("CLOUD_SDK_AK"); String sk = System.getenv("CLOUD_SDK_SK"); ICredential auth = new BasicCredentials() .withAk(ak) .withSk(sk); OcrClient client = OcrClient.newBuilder() .withCredential(auth) .withRegion(OcrRegion.valueOf("")) .build(); RecognizeGeneralTableRequest request = new RecognizeGeneralTableRequest(); GeneralTableRequestBody body = new GeneralTableRequestBody(); body.withReturnConfidence(false); body.withImage("/9j/4AAQSkZJRgABAgEASABIAAD/4RFZRXhpZgAATU0AKgAAAA..."); request.withBody(body); try { RecognizeGeneralTableResponse response = client.recognizeGeneralTable(request); System.out.println(response.toString()); } catch (ConnectionException e) { e.printStackTrace(); } catch (RequestTimeoutException e) { e.printStackTrace(); } catch (ServiceResponseException e) { e.printStackTrace(); System.out.println(e.getHttpStatusCode()); System.out.println(e.getRequestId()); System.out.println(e.getErrorCode()); System.out.println(e.getErrorMsg()); } } } 传入表格图片的url进行文字识别,并不返回置信度信息 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 package com.huaweicloud.sdk.test; import com.huaweicloud.sdk.core.auth.ICredential; import com.huaweicloud.sdk.core.auth.BasicCredentials; import com.huaweicloud.sdk.core.exception.ConnectionException; import com.huaweicloud.sdk.core.exception.RequestTimeoutException; import com.huaweicloud.sdk.core.exception.ServiceResponseException; import com.huaweicloud.sdk.ocr.v1.region.OcrRegion; import com.huaweicloud.sdk.ocr.v1.*; import com.huaweicloud.sdk.ocr.v1.model.*; public class RecognizeGeneralTableSolution { public static void main(String[] args) { // The AK and SK used for authentication are hard-coded or stored in plaintext, which has great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted during use to ensure security. // In this example, AK and SK are stored in environment variables for authentication. Before running this example, set environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment String ak = System.getenv("CLOUD_SDK_AK"); String sk = System.getenv("CLOUD_SDK_SK"); ICredential auth = new BasicCredentials() .withAk(ak) .withSk(sk); OcrClient client = OcrClient.newBuilder() .withCredential(auth) .withRegion(OcrRegion.valueOf("")) .build(); RecognizeGeneralTableRequest request = new RecognizeGeneralTableRequest(); GeneralTableRequestBody body = new GeneralTableRequestBody(); body.withReturnConfidence(false); body.withUrl("https://BucketName.obs.myhuaweicloud.com/ObjectName"); request.withBody(body); try { RecognizeGeneralTableResponse response = client.recognizeGeneralTable(request); System.out.println(response.toString()); } catch (ConnectionException e) { e.printStackTrace(); } catch (RequestTimeoutException e) { e.printStackTrace(); } catch (ServiceResponseException e) { e.printStackTrace(); System.out.println(e.getHttpStatusCode()); System.out.println(e.getRequestId()); System.out.println(e.getErrorCode()); System.out.println(e.getErrorMsg()); } } } 传入表格图片的base64编码进行文字识别,并不返回置信度信息 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 # coding: utf-8 from huaweicloudsdkcore.auth.credentials import BasicCredentials from huaweicloudsdkocr.v1.region.ocr_region import OcrRegion from huaweicloudsdkcore.exceptions import exceptions from huaweicloudsdkocr.v1 import * if __name__ == "__main__": # The AK and SK used for authentication are hard-coded or stored in plaintext, which has great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted during use to ensure security. # In this example, AK and SK are stored in environment variables for authentication. Before running this example, set environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.getenv("CLOUD_SDK_AK") sk = os.getenv("CLOUD_SDK_SK") credentials = BasicCredentials(ak, sk) \ client = OcrClient.new_builder() \ .with_credentials(credentials) \ .with_region(OcrRegion.value_of("")) \ .build() try: request = RecognizeGeneralTableRequest() request.body = GeneralTableRequestBody( return_confidence=False, image="/9j/4AAQSkZJRgABAgEASABIAAD/4RFZRXhpZgAATU0AKgAAAA..." ) response = client.recognize_general_table(request) print(response) except exceptions.ClientRequestException as e: print(e.status_code) print(e.request_id) print(e.error_code) print(e.error_msg) 传入表格图片的url进行文字识别,并不返回置信度信息 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 # coding: utf-8 from huaweicloudsdkcore.auth.credentials import BasicCredentials from huaweicloudsdkocr.v1.region.ocr_region import OcrRegion from huaweicloudsdkcore.exceptions import exceptions from huaweicloudsdkocr.v1 import * if __name__ == "__main__": # The AK and SK used for authentication are hard-coded or stored in plaintext, which has great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted during use to ensure security. # In this example, AK and SK are stored in environment variables for authentication. Before running this example, set environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.getenv("CLOUD_SDK_AK") sk = os.getenv("CLOUD_SDK_SK") credentials = BasicCredentials(ak, sk) \ client = OcrClient.new_builder() \ .with_credentials(credentials) \ .with_region(OcrRegion.value_of("")) \ .build() try: request = RecognizeGeneralTableRequest() request.body = GeneralTableRequestBody( return_confidence=False, url="https://BucketName.obs.myhuaweicloud.com/ObjectName" ) response = client.recognize_general_table(request) print(response) except exceptions.ClientRequestException as e: print(e.status_code) print(e.request_id) print(e.error_code) print(e.error_msg) 传入表格图片的base64编码进行文字识别,并不返回置信度信息 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 package main import ( "fmt" "github.com/huaweicloud/huaweicloud-sdk-go-v3/core/auth/basic" ocr "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/ocr/v1" "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/ocr/v1/model" region "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/ocr/v1/region" ) func main() { // The AK and SK used for authentication are hard-coded or stored in plaintext, which has great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted during use to ensure security. // In this example, AK and SK are stored in environment variables for authentication. Before running this example, set environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak := os.Getenv("CLOUD_SDK_AK") sk := os.Getenv("CLOUD_SDK_SK") auth := basic.NewCredentialsBuilder(). WithAk(ak). WithSk(sk). Build() client := ocr.NewOcrClient( ocr.OcrClientBuilder(). WithRegion(region.ValueOf("")). WithCredential(auth). Build()) request := &model.RecognizeGeneralTableRequest{} returnConfidenceGeneralTableRequestBody:= false imageGeneralTableRequestBody:= "/9j/4AAQSkZJRgABAgEASABIAAD/4RFZRXhpZgAATU0AKgAAAA..." request.Body = &model.GeneralTableRequestBody{ ReturnConfidence: &returnConfidenceGeneralTableRequestBody, Image: &imageGeneralTableRequestBody, } response, err := client.RecognizeGeneralTable(request) if err == nil { fmt.Printf("%+v\n", response) } else { fmt.Println(err) } } 传入表格图片的url进行文字识别,并不返回置信度信息 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 package main import ( "fmt" "github.com/huaweicloud/huaweicloud-sdk-go-v3/core/auth/basic" ocr "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/ocr/v1" "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/ocr/v1/model" region "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/ocr/v1/region" ) func main() { // The AK and SK used for authentication are hard-coded or stored in plaintext, which has great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted during use to ensure security. // In this example, AK and SK are stored in environment variables for authentication. Before running this example, set environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak := os.Getenv("CLOUD_SDK_AK") sk := os.Getenv("CLOUD_SDK_SK") auth := basic.NewCredentialsBuilder(). WithAk(ak). WithSk(sk). Build() client := ocr.NewOcrClient( ocr.OcrClientBuilder(). WithRegion(region.ValueOf("")). WithCredential(auth). Build()) request := &model.RecognizeGeneralTableRequest{} returnConfidenceGeneralTableRequestBody:= false urlGeneralTableRequestBody:= "https://BucketName.obs.myhuaweicloud.com/ObjectName" request.Body = &model.GeneralTableRequestBody{ ReturnConfidence: &returnConfidenceGeneralTableRequestBody, Url: &urlGeneralTableRequestBody, } response, err := client.RecognizeGeneralTable(request) if err == nil { fmt.Printf("%+v\n", response) } else { fmt.Println(err) } }更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码状态码 描述 200 成功响应样例 400 失败响应样例 状态码请参见状态码。 错误码错误码请参见错误码。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |