python 获取PDF中文字(PDFminer) |
您所在的位置:网站首页 › python3怎么安装pdfminer › python 获取PDF中文字(PDFminer) |
对于可以解析成TXT 的PDF 来说是比较好处理的。 安装需要的包 pip install pdfminer具体步骤: 1.open 以二进制的办法打开PDF 文件 2.利用PDFParser为打开的文件创建一个pdf文档分析器 3.创建一个PDF文档 4. 连接分析器 与文档对象: parser.set_document(doc);doc.set_parser(parser) 5. 提供初始化密码; 如果没有密码 就创建一个空的字符串:doc.initialize() 6. 检测文档是否提供txt转换,不提供就忽略; 当然对于不提供txt转换的PDF 可以采用OCR 技术; if not doc.is_extractable: raise PDFTextExtractionNotAllowed7.创建PDf 资源管理器 来管理共享资源; rsrcmgr = PDFResourceManager()#创建一个PDF设备对象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device) 9.处理文档对象中每一页的内容 doc.get_pages() 获取page列表10.循环遍历列表,每次处理一个page的内容 #这里layout是一个LTPage对象 里面存放着 这个pa |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |