【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

您所在的位置:网站首页 怎么提取ppt的文字内容 【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

2023-12-21 11:18| 来源: 网络整理| 查看: 265

第一步,导入需要使用的库并设置待读取ppt的存储路径

from pptx import Presentation import os import pptx filepath = "Mortality 6 2021.pptx" file_name = filepath[:-5] # 实例化ppt对象 prs = Presentation(filepath) #PPT文件路径

第二步:

创建result列表。(最后我们会将全部信息存储到result列表中,并写入一个txt文档。)

读取ppt 中的内容。

ppt这个库的逻辑是逐页(page)读取每个形状(shape)

我们的程序是首先判断遇到的形状是否是文本框,如果是文本框的话,直接将全部文本信息写入results。

如果不是文本框的话再判断这个形状是不是图片对象。如果是的话,新建一个文件夹,将这个图片存储到这个文件夹中。最后将扒到本地的图片的存储路径标准化为markdown格式写入results内。

results = [] for slide in prs.slides: for shape in slide.shapes: if shape.has_text_frame: for paragraph in shape.text_frame.paragraphs: part = [] for run in paragraph.runs: part.append(run.text) results.append(''.join(part))


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3