PDF转Word后的难题:一段变多段、分段不正确、每行末多加了回车符 |
您所在的位置:网站首页 › word一键删除所有回车 › PDF转Word后的难题:一段变多段、分段不正确、每行末多加了回车符 |
一、PDF转word后的分段错误 pdf转word当然需要用到OCR技术,现在市面上有很多软件支持OCR,比如汉王、ABBYY FineReader、Acrobat、WPS office等。不论用哪个软件转换,或多或少都会出现段落分段错误的问题:原来的一段变成多段,或者原来的每一行都变成一段。 如下图是同一个图片,分别用ABBYY FineReader和另一个软件识别的结果的对比。可以看到ABBYY FineReader几乎没有分段错误的地方,而另一个软件把原来的每一行都变成了一段。所以,为了尽量降低分段错误,首先需要选择一个比较好的OCR软件。 ![]() 在识别pdf时,是按页识别的,在页内识别时,ABBYY FineReader也不免产生一些分段错误。而且对于跨两页的一段内容,无论哪个软件,识别后都将产生分段错误。分段错误可以在ABBYY FineReader软件内校对时去修正,但ABBYY FineReader并不支持正则表达式,要采用手动校正,用时较长,所以较好的办法是在word中进行后期校正。 二、在word中利用通配符查找替换和样式功能快速校正分段错误校正分段错误的基本思路是:凡是不以结束标点(基本的包括。!?……)为结尾的段落都是错误分段,但存在标题、表名、图名、选项(试题文档中选择题的选项)等是例外。具体文档需要具体分析,以上图所示文档为例讲解一下方法步骤 第一步,为整个文档应用word内置的“正文”样式,或者其他自定义的样式。操作很简单,直接全选内容,应用样式即可 第二步,为标题、表名、图名、选项等例外内容应用不同于第一步中所使用的样式。 以上图所示文档为例,对于“第一章xxxx”这样的章标题,可以使用通配符查找替换快速为其应用内置样式“标题1”。 查找表达式 第[一二三四五六七八九十]{1,}章 替换表达式 留空,限定样式为“标题1” 设置如下图,将光标置于文首,勾选“使用通配符”,单击全部替换即可。 ![]() 再如“1.1xxxxx”这样的二级标题。因为其他非标题文本中也可能存在形似“1.1”这样的数字,但一般不在段首位置,所以分两次查找替换,第一次用特殊文本(特殊之意为文档中不存在这样的文本)标志这样的标题,第二次再应用样式。 第一次 查找表达式 ^13([0-9]{1,}.[0-9]{1,}[!.]) 替换表达式 ^p###\1 ![]() 第二次 查找表达式 ### 替换表达式 留空,限定样式为“标题2” 替换完成后,记得还要清除文本“###”。 ![]() 如此,根据文本的特征,处理完这些例外文本,就可以进入下一步了。 第三步,校正分段错误。因为几乎所有例外段落都应用了别的样式,所以可以在查找框限定样式为“正文”,以避免例外段落的干扰。 查找表达式 ([!。?!……])^13 限定样式为“正文” 替换表达式 \1 可以单击“全部替换”快速完成这一步,但谨慎起见,可以用“R”和“F”键(激活查找与替换对话框时可用),一个个确认后替换。 ![]() 第四步,检查全文。文档内容一多,情况往往会比较复杂,查找表达式不可能全部都照顾到,所以事后还需要检查。 以上方法步骤还有一个好处,校正分段错误的同时,可以兼顾文档排版。 有什么关于办公图文方面的问题,可以发私信或评论,也许可以帮到你哦。 关于pdf转word的其他文章,可以看 阿德:PDF转word——这样的pdf一键转换只是浪费钱阿德:PDF转word,一键转换?没有这么简单《极简办公》职场word基础课,直击各行业日常办公中的常见问题,并提供解决方案,帮助职场新人快速掌握办公技能。《word排版技术大全》全面讲解word排版的理论与技术,提供大量排版应用案例。对已经有了一定基础的word用户来说,是一次大的技能升级。开通知乎盐选会员,以上电子书都可以免费阅读,还有更多丰富的免费内容你可能感兴趣哦。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |