【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

您所在的位置：网站首页 › 怎么提取ppt的文字内容 › 【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

2023-12-21 11:18| 来源: 网络整理| 查看: 265

第一步，导入需要使用的库并设置待读取ppt的存储路径

from pptx import Presentation import os import pptx filepath = "Mortality 6 2021.pptx" file_name = filepath[:-5] # 实例化ppt对象 prs = Presentation(filepath) #PPT文件路径

第二步：

创建result列表。（最后我们会将全部信息存储到result列表中，并写入一个txt文档。）

读取ppt 中的内容。

ppt这个库的逻辑是逐页（page）读取每个形状（shape）

我们的程序是首先判断遇到的形状是否是文本框，如果是文本框的话，直接将全部文本信息写入results。

如果不是文本框的话再判断这个形状是不是图片对象。如果是的话，新建一个文件夹，将这个图片存储到这个文件夹中。最后将扒到本地的图片的存储路径标准化为markdown格式写入results内。

results = [] for slide in prs.slides: for shape in slide.shapes: if shape.has_text_frame: for paragraph in shape.text_frame.paragraphs: part = [] for run in paragraph.runs: part.append(run.text) results.append(''.join(part))

【本文地址】

【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

今日新闻

推荐新闻