什么是文字识别

2024-07-10 03:02| 来源: 网络整理| 查看: 265

文字识别（Optical Character Recognition，简称OCR）是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式，以JSON格式返回识别结果。

OCR以开放API（Application Programming Interface，应用程序编程接口）的方式提供给用户，用户使用Python、Java等编程语言调用OCR服务API将图片识别成文字，帮助用户自动采集关键数据，打造智能化业务系统，提升业务效率，API获取详情请参考《API参考》。

OCR还提供多种编程语言的SDK供您使用，SDK使用方法请参考《SDK参考》。

使用前必读

用户需要具备编程能力，熟悉Java、Python、iOS、Android、Node.js编程语言。

OCR服务需要用户通过调用API接口，将图片或扫描件中的文字识别成可编辑的文本，然后返回JSON格式的识别结果，用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。

关于文字识别的相关声明请参见文字识别服务声明、隐私政策声明。

文字识别服务等级协议请参见华为云服务等级协议。

OCR能力通用类 OCR

通用类OCR（General OCR），支持表格、文档、网络图片等任意格式图片上文字信息的自动化识别，自适应分析各种版面和表格，快速实现各种文档电子化。

证件类 OCR

证件类OCR（Card OCR），支持身份证、驾驶证、行驶证、护照等证件图片上有效信息的自动识别和关键字段结构化提取。

票据类 OCR

票据类OCR（Receipt OCR），支持增值税发票、机动车销售发票、医疗发票等各种发票和表单图片上有效信息的自动识别和结构化提取。

行业类 OCR

行业类OCR（Domain OCR），支持物流面单、医疗化验单据等多种行业特定类型图片的结构化信息提取和识别，助力行业自动化效率提升。

首次使用OCR

如果您是首次使用OCR的用户，建议您学习并了解如下信息：

功能介绍

通过功能介绍章节的内容，了解OCR不同类别的文字识别功能，包括通用类文字识别、证件类文字识别、票据类文字识别。

入门使用

OCR以开放API的方式提供给用户，您可以参考《快速入门》学习并使用OCR服务。

使用方式

如果您是一个开发工程师，熟悉代码编写，想要直接调用OCR服务，您可以参考《API参考》或《SDK参考》获取详情。

由浅入深学习

您可以参考成长地图，由浅入深学习使用OCR。

【本文地址】

今日新闻