三行java代码解析pdf获取文档内容(包含表格及段落)

您所在的位置:网站首页 css表格内部边框显示不完整 三行java代码解析pdf获取文档内容(包含表格及段落)

三行java代码解析pdf获取文档内容(包含表格及段落)

2023-07-12 13:51| 来源: 网络整理| 查看: 265

前言

PDF 文件是一种十分常用的文件格式,在企业信息系统存储和交换信息中普遍使用。从PDF文档中获取表格段落等文档内容却是一件非常麻烦的事情,这是因为pdf的设计初衷是基于文档显示的,为了能保证在不同平台中完全一致的视觉效果,PDF文档结构是按页分割的,每个PDF页存储的是一系列包含线条、字符、图片等基本元素的绘图指令及引用的资源。正是这个原因,pdf文档不能像word文档一样直接获取表格和段落,如果想要获取这些文档内容,需要在获取字符、线条、图片等图形及坐标基础上按阅读习惯把含基本元素重新组装,还原出表格、段落、图片等文档部件,然后在此基础上拼接成文档,其中涉及对pdf绘图指令解析,表格、段落的识别,跨页、跨栏的合并处理等,过程十分复杂。

PDFBox是apache基金会旗下的一个为java开发人员读取和创建PDF文档而准备的纯Java开源类库。PDFBox可解析PDF文档并获取图形元素及坐标。

pdftranspro是基于PDFBox定制开发的一个专业 pdf 文本内容提取解决方案,支持windows和linux平台,能对跨页、跨栏的段落或表格进行合并处理,精确还原整篇文档内的段落和表格,而且可以同时输出html、xml、json、txt 等 4 种格式,方便用户高效获取 pdf 文档内的精确信息或数据。通过Java调用SDK方式仅需三行代码集成pdf文档转换功能,可返回转换文本,也提供 pdf文档截取合并、中文繁体简体转换、关键词替换等实用的 pdf 编辑功能接口。

 Demo示例

生成html格式示例程序代码如下:

1 package test_sdk_pdftranspro; 2 3 import org.pdf.parser.Pdfutil; 4 5 public class Pdfsdk_test { 6 public static void main(String[] args) 7 { 8 Pdfutil test = new Pdfutil(); 9 System.out.println(test.getpdftext("infiles/600979.PDF",true,"html",true,10,30)); //将文档转成html格式,页面范围为20-30 10 } 11 } 12   

程序运行结果如下:

生成xml格式示例程序代码如下:

1 package test_sdk_pdftranspro; 2 3 import org.pdf.parser.Pdfutil; 4 5 public class Pdfsdk_test { 6 public static void main(String[] args) 7 { 8 Pdfutil test = new Pdfutil(); 9 System.out.println(test.getpdftext("infiles/600979.PDF",true,"xml",true,10,30)); //将文档转成xml格式,页面范围为20-30 10 } 11 }

程序运行结果如下:

生成json格式示例程序代码如下:

1 package test_sdk_pdftranspro; 2 3 import org.pdf.parser.Pdfutil; 4 5 public class Pdfsdk_test { 6 public static void main(String[] args) 7 { 8 Pdfutil test = new Pdfutil(); 9 System.out.println(test.getpdftext("infiles/600979.PDF",true,"json",true,10,30)); //将文档转成json格式,页面范围为20-30 10 } 11 }

程序运行结果如下:

生成txt格式示例程序代码如下:

1 package test_sdk_pdftranspro; 2 3 import org.pdf.parser.Pdfutil; 4 5 public class Pdfsdk_test { 6 public static void main(String[] args) 7 { 8 Pdfutil test = new Pdfutil(); 9 System.out.println(test.getpdftext("infiles/600979.PDF",true,"txt",true,10,30)); //将文档转成txt格式,页面范围为20-30 10 } 11 }

程序运行结果如下:

demo程序文件结构如下:

 demo程序资源目录结构如下:

 

 Demo下载

pdftranspro2.0——点击进入下载页面

pdftranspro1.7——点击进入下载页面



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3