从pdf中提取文本图片表格 并保存为txt文件 python blocks方法还有什么方法

您所在的位置:网站首页 图片提取表格内容 从pdf中提取文本图片表格 并保存为txt文件 python blocks方法还有什么方法

从pdf中提取文本图片表格 并保存为txt文件 python blocks方法还有什么方法

2024-05-20 18:15| 来源: 网络整理| 查看: 265

从PDF中提取文本、图片和表格并保存为txt文件的方法

在日常的工作和学习中,我们经常会遇到需要从PDF文件中提取内容的需求。无论是提取文本内容、图片还是表格,Python都提供了一些强大的库来处理这些任务。本文将介绍使用Python来提取PDF中的文本、图片和表格,并保存为txt文件的方法,主要使用了pdfplumber库和tabula-py库。

安装依赖库

在开始之前,我们需要安装两个依赖库:pdfplumber和tabula-py。你可以通过以下命令来安装它们:

pip install pdfplumber tabula-py 提取文本

首先,我们来看如何使用pdfplumber库来提取PDF中的文本内容。以下是一个简单的示例代码:

import pdfplumber def extract_text_from_pdf(pdf_path, txt_path): with pdfplumber.open(pdf_path) as pdf: text = "" for page in pdf.pages: text += page.extract_text() with open(txt_path, "w", encoding="utf-8") as f: f.write(text) # 使用示例 pdf_path = "example.pdf" txt_path = "output.txt" extract_text_from_pdf(pdf_path, txt_path)

在上面的代码中,我们首先使用pdfplumber.open()方法打开PDF文件,然后使用extract_text()方法提取每一页的文本内容,并将其拼接到一个字符串中。最后,我们将提取的文本内容保存到一个txt文件中。

提取图片

如果我们需要从PDF中提取图片,可以使用pdfplumber库提供的extract_image()方法。以下是一个示例代码:

import pdfplumber def extract_images_from_pdf(pdf_path, output_folder): with pdfplumber.open(pdf_path) as pdf: for i, page in enumerate(pdf.pages): for j, image in enumerate(page.images): image_path = f"{output_folder}/image_{i}_{j}.png" image.export(image_path, format="png") # 使用示例 pdf_path = "example.pdf" output_folder = "output" extract_images_from_pdf(pdf_path, output_folder)

在上面的代码中,我们使用pdfplumber.open()方法打开PDF文件,然后遍历每一页的图片,使用export()方法将图片保存为PNG格式的文件。可以根据需要自定义保存路径和格式。

提取表格

对于提取PDF中的表格,我们可以使用tabula-py库。tabula-py库提供了一些方法来提取表格数据。以下是一个示例代码:

import tabula def extract_tables_from_pdf(pdf_path, output_folder): tables = tabula.read_pdf(pdf_path, pages="all", multiple_tables=True) for i, table in enumerate(tables): table_path = f"{output_folder}/table_{i}.csv" table.to_csv(table_path) # 使用示例 pdf_path = "example.pdf" output_folder = "output" extract_tables_from_pdf(pdf_path, output_folder)

在上面的代码中,我们使用tabula.read_pdf()方法来读取PDF文件中的表格,并返回一个包含所有表格的列表。然后,我们可以遍历这个列表,并使用to_csv()方法将每个表格保存为CSV格式的文件。同样,可以根据需要自定义保存路径和格式。

总结

通过以上简单的示例代码,我们介绍了如何使用Python来提取PDF文件中的文本、图片和表格,并保存为txt文件的方法。使用pdfplumber库和tabula-py库,我们可以轻松地完成这些任务。希望本文对你有所帮助!

附:表格样例

姓名 年龄 性别 张三 20 男 李四 22 女 王五 25 男

以上是一个简单的表格样例,使用Markdown语法进行展示。你可以根据需要在文本中插入表格,并使用Markdown语法进行标识。

| 姓名 | 年龄 | 性别 | |------|------|------| | 张三 | 20 | 男 | | 李四 | 22


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3