【python自动化】读取ppt内全部文本和图片信息并导出markdown文档 |
您所在的位置:网站首页 › 怎么提取ppt的文字内容 › 【python自动化】读取ppt内全部文本和图片信息并导出markdown文档 |
第一步,导入需要使用的库并设置待读取ppt的存储路径 from pptx import Presentation import os import pptx filepath = "Mortality 6 2021.pptx" file_name = filepath[:-5] # 实例化ppt对象 prs = Presentation(filepath) #PPT文件路径第二步: 创建result列表。(最后我们会将全部信息存储到result列表中,并写入一个txt文档。) 读取ppt 中的内容。 ppt这个库的逻辑是逐页(page)读取每个形状(shape) 我们的程序是首先判断遇到的形状是否是文本框,如果是文本框的话,直接将全部文本信息写入results。 如果不是文本框的话再判断这个形状是不是图片对象。如果是的话,新建一个文件夹,将这个图片存储到这个文件夹中。最后将扒到本地的图片的存储路径标准化为markdown格式写入results内。 results = [] for slide in prs.slides: for shape in slide.shapes: if shape.has_text_frame: for paragraph in shape.text_frame.paragraphs: part = [] for run in paragraph.runs: part.append(run.text) results.append(''.join(part)) |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |