python 获取PDF中文字(PDFminer)

您所在的位置:网站首页 python3怎么安装pdfminer python 获取PDF中文字(PDFminer)

python 获取PDF中文字(PDFminer)

#python 获取PDF中文字(PDFminer)| 来源: 网络整理| 查看: 265

对于可以解析成TXT 的PDF 来说是比较好处理的。 安装需要的包

pip install pdfminer

具体步骤: 1.open 以二进制的办法打开PDF 文件 2.利用PDFParser为打开的文件创建一个pdf文档分析器 3.创建一个PDF文档 4. 连接分析器 与文档对象: parser.set_document(doc);doc.set_parser(parser) 5. 提供初始化密码; 如果没有密码 就创建一个空的字符串:doc.initialize() 6. 检测文档是否提供txt转换,不提供就忽略; 当然对于不提供txt转换的PDF 可以采用OCR 技术;

if not doc.is_extractable: raise PDFTextExtractionNotAllowed

7.创建PDf 资源管理器 来管理共享资源;

rsrcmgr = PDFResourceManager()

#创建一个PDF设备对象

laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device)

9.处理文档对象中每一页的内容

doc.get_pages() 获取page列表

10.循环遍历列表,每次处理一个page的内容 #这里layout是一个LTPage对象 里面存放着 这个pa



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3