python 获取PDF中文字（PDFminer)

您所在的位置：网站首页 › python3怎么安装pdfminer › python 获取PDF中文字（PDFminer)

python 获取PDF中文字（PDFminer)

#python 获取PDF中文字（PDFminer)| 来源: 网络整理| 查看: 265

对于可以解析成TXT 的PDF 来说是比较好处理的。安装需要的包

pip install pdfminer

具体步骤： 1.open 以二进制的办法打开PDF 文件 2.利用PDFParser为打开的文件创建一个pdf文档分析器 3.创建一个PDF文档 4. 连接分析器与文档对象： parser.set_document(doc)；doc.set_parser(parser) 5. 提供初始化密码；如果没有密码就创建一个空的字符串：doc.initialize() 6. 检测文档是否提供txt转换，不提供就忽略；当然对于不提供txt转换的PDF 可以采用OCR 技术；

if not doc.is_extractable: raise PDFTextExtractionNotAllowed

7.创建PDf 资源管理器来管理共享资源；

rsrcmgr = PDFResourceManager()

#创建一个PDF设备对象

laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device)

9.处理文档对象中每一页的内容

doc.get_pages() 获取page列表

10.循环遍历列表，每次处理一个page的内容 #这里layout是一个LTPage对象里面存放着这个pa

【本文地址】

python 获取PDF中文字（PDFminer)

python 获取PDF中文字（PDFminer)

今日新闻

推荐新闻