手把手教你用Python提取PDF中的表格

您所在的位置:网站首页 将pdf中的表格导出word 手把手教你用Python提取PDF中的表格

手把手教你用Python提取PDF中的表格

2024-07-10 00:08| 来源: 网络整理| 查看: 265

前言

pdfplumber 是一个开源的 python 工具库 ,它可以轻松的获取 PDF 文本内容、标题、表格、尺寸等各种信息,今天来介绍如何使用它来提取 PDF 中的表格。

安装

首先通过下面命令安装 pdfplumber 模块。

pip install pdfplumber

或是使用豆瓣镜像源安装。

pip install -i https://pypi.douban.com/simple pdfplumber 案例

这里有一份2020年中国大学生计算机设计大赛参赛作品获奖名单,文件为 PDF 格式,每页都包含表格,表格中包含为各支队伍的获奖信息,共158页。表格前两页内容如下。

下面将 PDF 中的表格提取出来,并保存到 Excel 中。

首先导入所需要的模块:

import pdfplumber import pandas as pd

读取 PDF 文件

read_path = '2020年中国大学生计算机设计大赛参赛作品获奖名单.pdf' pdf_2020 = pdfplumber.open(read_path)

pages 属性包含 PDF 中每页的信息,循环每页内容,使用 extract_table() 方法提取每页中的表格数据,并将数据转为 DataFrame,最后合并每页的数据。

result_df = pd.DataFrame() for page in pdf_2020.pages: table = page.extract_table() df_detail = pd.DataFrame(table[1:], columns=table[0]) # 合并每页的数据集 result_df = pd.concat([df_detail, result_df], ignore_index=True)

此时DataFrame中数据如下:

可以看到通过 extract_table() 提取后的数据有许多包含缺失值的列,我们还需要对DataFrame进行进一步处理,删除全为缺失值的列。

result_df.dropna(axis=1, how='all', inplace=True)

删了缺失值后,列名也一并删除了,还需要指定对应列名。

result_df.columns = ['奖项', '作品编号', '作品名称', '参赛学校', '作者', '指导老师']

到现在我们就成功将表格信息完整的提取出来了!

完整代码 import pdfplumber import pandas as pd def read_pdf(read_path, save_path): pdf_2020 = pdfplumber.open(read_path) result_df = pd.DataFrame() for page in pdf_2020.pages: table = page.extract_table() print(table) df_detail = pd.DataFrame(table[1:], columns=table[0]) result_df = pd.concat([df_detail, result_df], ignore_index=True) result_df.dropna(axis=1, how='all', inplace=True) result_df.columns = ['奖项', '作品编号', '作品名称', '参赛学校', '作者', '指导老师'] result_df.to_excel(excel_writer=save_path, index=False, encoding='utf-8') read_path = r'2020年中国大学生计算机设计大赛参赛作品获奖名单.pdf' save_path = r'2020年中国大学生计算机设计大赛参赛作品获奖名单.xlsx' read_pdf(read_path, save_path)

目前python前景最好,学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。下面有一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3