OCR

您所在的位置:网站首页 关闭ocr OCR

OCR

2024-06-19 14:26| 来源: 网络整理| 查看: 265

在PDF文档和PDF文件包中运行OCR

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。当需要将纸质文档扫描并创建成电子文档或对现有的电子文档(如PDF文档或PDF文件包)进行操作时,OCR是最常用的一种方式。

²  识别文本

打开基于纸质扫描或图片的PDF文档时,福昕高级PDF编辑器能自动检测到并弹出以下信息框,提示您是否进行OCR。对于PDF中基于图像的文本,您可以随时对其执行文本识别操作。

在单个PDF文件中识别文本,请按以下步骤操作:

1.          点击“转换”> “识别文本” > “当前文件”。

2.          在弹出的“识别文本”对话框中,指定识别范围。

3.          从语言列表中选择文档的语言,您也可以选择多种语言。

4.          在“输出”类型中,若选择“可搜索的图像文本”或“可搜索的图像文本(原始图像)”,则识别后图片上的文本可以被选择并且您在检索文本时可搜索到文档中图片上的文本;若选择“可编辑文本”,则识别后编辑文本时图片上的文本也可支持编辑。选择“可搜索的图像文本”或“可编辑文本”时,您可以在“缩减像素取样”项中为输出内容设置DPI值,以在OCR过程中压缩文档中的图像和减小文件大小。

·         可搜索的图像文本/可搜索的图像文本(原始图像):在OCR过程中,程序将对图片上文本进行分析并使用与这些文本非常接近的字词替代图片上的文本。替代的字词将被放置在PDF中一个不可见的文本层上,从而使图片上的文本可以被选择和搜索。替代过程中程序无法确定的文本将被标记为OCR疑似错误结果,并需要手动进行更正。

·         可编辑文本:在OCR过程中,程序对图片上的文本的形状与系统上安装的近似字体进行比对后,将这些文本转换为可编辑文本。

注:点击“确定”后,若弹出对话框提示您下载OCR组件,您可以点击“是”下载并安装,或根据所提供的链接稍后进行下载,然后点击“帮助”>“福昕插件”>在弹出的“关于福昕插件”对话框中点击“安装插件”进行安装。(提示:对于MSI格式的插件,双击插件即可开始安装。)

5.          (可选)若勾选了“查找所有疑似结果(显示所有可能需要被修改的OCR的结果)”,则识别结束后将弹出“OCR疑似错误”对话框,供您检查并修改OCR疑似错误。如何修改OCR疑似错误,请参看“查找并更正OCR疑似错误”的说明。

如果在输出类型中选择“可编辑文本”,并勾选了“查找所有疑似结果(显示所有可能需要被修改的 OCR的结果)”选项,识别后程序会把不确定的文本标记为 OCR 疑似错误并保留图片上的这些文本,后续您需要手动处理这些OCR疑似错误。若未勾选“查找所有疑似结果(显示所有可能需要被修改的 OCR的结果)”选项,识别后将不会出现OCR疑似错误,图片上的文本全部被转换为可编辑的文本。根据需要(如文本未被正确识别),您可以通过“编辑”选项卡中的命令直接修改文本。

6.          (可选)如果您在步骤4中选择“可编辑文本”,则“将PDF文件中的线段识别为路径对象”选项可用。若文档中图片上的文本包含表格,则勾选此选项有助于更好地识别线段,但是完成文本的识别可能需要消耗更长的时间。

7.          点击“确定”。文本识别进程条将会弹出显示进程。

8.          识别结束后,再执行搜索功能,您会发现原来在图片上或扫描文档中的文本可以被搜索或编辑。

注:您也可以通过点击“主页”或“转换”选项卡下的“快速识别”按钮,使用程序的默认设置或您最近一次通过“识别文本”命令识别文本的设置快速对纸质扫描的或基于图片的PDF文档中的所有页面进行文本识别。

在多个文件中识别文本:

1.       点击“转换”>“识别文本”>“多个文件”;

2.       在弹出的“识别文本”对话框中,点击“添加文件”添加文件、文件夹或当前打开的文件,点击“上移”、“下移”、“移除”可以调整文件的顺序;

3.       点击“输出选项…”,在“输出选项”对话框中选择目标文件夹及文件命名方式,并选择是否覆盖已有文件,然后点击“确定”;

4.       点击“确定”开始识别。

注:

1.       当您首次使用日韩OCR引擎时,系统将提醒您从福昕服务器中下载并安装这些引擎。

2.       若添加了不支持的文件,“识别文本”对话框中将出现“移除未支持的文件”按钮。点击该按钮移除的不支持文件并继续操作。识别PDF文件包时,福昕高级PDF编辑器将仅提取和识别文件包中的PDF文件。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3