PDF转Word后的难题:一段变多段、分段不正确、每行末多加了回车符

您所在的位置:网站首页 word选择题选项排版 PDF转Word后的难题:一段变多段、分段不正确、每行末多加了回车符

PDF转Word后的难题:一段变多段、分段不正确、每行末多加了回车符

2023-05-08 21:43| 来源: 网络整理| 查看: 265

一、PDF转word后的分段错误

pdf转word当然需要用到OCR技术,现在市面上有很多软件支持OCR,比如汉王、ABBYY FineReader、Acrobat、WPS office等。不论用哪个软件转换,或多或少都会出现段落分段错误的问题:原来的一段变成多段,或者原来的每一行都变成一段。

如下图是同一个图片,分别用ABBYY FineReader和另一个软件识别的结果的对比。可以看到ABBYY FineReader几乎没有分段错误的地方,而另一个软件把原来的每一行都变成了一段。所以,为了尽量降低分段错误,首先需要选择一个比较好的OCR软件。

识别结果对比,分段错误

在识别pdf时,是按页识别的,在页内识别时,ABBYY FineReader也不免产生一些分段错误。而且对于跨两页的一段内容,无论哪个软件,识别后都将产生分段错误。分段错误可以在ABBYY FineReader软件内校对时去修正,但ABBYY FineReader并不支持正则表达式,要采用手动校正,用时较长,所以较好的办法是在word中进行后期校正。

二、在word中利用通配符查找替换和样式功能快速校正分段错误

校正分段错误的基本思路是:凡是不以结束标点(基本的包括。!?……)为结尾的段落都是错误分段,但存在标题、表名、图名、选项(试题文档中选择题的选项)等是例外。具体文档需要具体分析,以上图所示文档为例讲解一下方法步骤

第一步,为整个文档应用word内置的“正文”样式,或者其他自定义的样式。操作很简单,直接全选内容,应用样式即可

第二步,为标题、表名、图名、选项等例外内容应用不同于第一步中所使用的样式。

以上图所示文档为例,对于“第一章xxxx”这样的章标题,可以使用通配符查找替换快速为其应用内置样式“标题1”。

查找表达式 第[一二三四五六七八九十]{1,}章

替换表达式 留空,限定样式为“标题1”

设置如下图,将光标置于文首,勾选“使用通配符”,单击全部替换即可。

第二步 章标题应用样式

再如“1.1xxxxx”这样的二级标题。因为其他非标题文本中也可能存在形似“1.1”这样的数字,但一般不在段首位置,所以分两次查找替换,第一次用特殊文本(特殊之意为文档中不存在这样的文本)标志这样的标题,第二次再应用样式。

第一次

查找表达式 ^13([0-9]{1,}.[0-9]{1,}[!.])

替换表达式 ^p###\1

标志1.1xxxx段落

第二次

查找表达式 ###

替换表达式 留空,限定样式为“标题2”

替换完成后,记得还要清除文本“###”。

1.1xxxx应用样式

如此,根据文本的特征,处理完这些例外文本,就可以进入下一步了。

第三步,校正分段错误。因为几乎所有例外段落都应用了别的样式,所以可以在查找框限定样式为“正文”,以避免例外段落的干扰。

查找表达式 ([!。?!……])^13 限定样式为“正文”

替换表达式 \1

可以单击“全部替换”快速完成这一步,但谨慎起见,可以用“R”和“F”键(激活查找与替换对话框时可用),一个个确认后替换。

第三步校正错误分段

第四步,检查全文。文档内容一多,情况往往会比较复杂,查找表达式不可能全部都照顾到,所以事后还需要检查。

以上方法步骤还有一个好处,校正分段错误的同时,可以兼顾文档排版。

有什么关于办公图文方面的问题,可以发私信或评论,也许可以帮到你哦。

关于pdf转word的其他文章,可以看

阿德:PDF转word——这样的pdf一键转换只是浪费钱阿德:PDF转word,一键转换?没有这么简单《极简办公》职场word基础课,直击各行业日常办公中的常见问题,并提供解决方案,帮助职场新人快速掌握办公技能。《word排版技术大全》全面讲解word排版的理论与技术,提供大量排版应用案例。对已经有了一定基础的word用户来说,是一次大的技能升级。

开通知乎盐选会员,以上电子书都可以免费阅读,还有更多丰富的免费内容你可能感兴趣哦。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3