python入门项目06:批量处理文件

您所在的位置:网站首页 fast5文件处理 python入门项目06:批量处理文件

python入门项目06:批量处理文件

2023-03-13 04:51| 来源: 网络整理| 查看: 265

文章目录 前言一、理论知识1.1 OS模块1.2 XML的解析 二、使用步骤1.引入库2.创建新文件夹3文件操作4 修改文件 总结

前言

本文要完成的是对于较多XML文档的自动修改,这部分往往在大量的图像标注的修改中会使用到,同时也不要局限于本文中所提到的使用场景。

一、理论知识

python中有大量的第三方库可以供我们使用,因此我们需要对所用到的库进行简单的学习,有大致印象即可,等到需要某个功能上网查一下就行了。 在python编程时,经常和文件、目录打交道,所以离不了os模块

1.1 OS模块

此部分网上有大量的教程,在此不再赘述。可以参考此文章:OS模块的学习 在这里插入图片描述

1.2 XML的解析

xml.etree.ElementTree模块实现了一个简单而高效的API用于解析和创建XML数据。 参考文章:XML

二、使用步骤 1.引入库

代码如下(示例):

import xml.etree.ElementTree as ET import os 2.创建新文件夹

代码如下(示例):

xmldir = 'xml' newxmldir = 'newxml' if not os.path.exists(newxmldir): #如果没有存放新xml的文件,那么 #就创建一个. os.makedirs(newxmldir) 3文件操作 for xml in os.listdir(xmldir): xmlpath = os.path.join(xmldir, xml) newxmlpath = os.path.join(newxmldir, xml) print("****************************") print("原始路径: ",xmlpath) print("新文件的路径:", xmlpath)

上面代码实现的功能是遍历每一个文件,并找到原来的路径和存放新文件的路径。 在这里插入图片描述 得到这一步,下面要在上述的循环中进行修改操作

4 修改文件 tree = ET.parse(xmlpath) root = tree.getroot() #root 有tag和attrib两个属性 #print(root.tag,root.attrib) #for child in root: # print(child.tag, child.attrib) 查看树子支的标签 for obj in root.findall('country'): name = obj.find('rank') if name.text == '1': name.text = '修改1' elif name.text == '4': name.text = '修改4' tree.write(newxmlpath, 'UTF-8')

在这里插入图片描述 上图是我们要修改的xml文档,假设一开始的文档中都是这种格式的数据。 观察可以发现其中的三个大框都是country,在这个节点的下面有rank,year,gdppc等子节点,所以假设我们要修改的为rank 修改结果如下: 在这里插入图片描述 具体的操作结合代码观看,一一对应的修改,不要盲目的找一个就用,因为数据格式还是多少有点区别的。

总结

本文实现的功能是批量化修改已有的xml文件。这种自动化的处理正是python的优雅之处,可以帮我们解决很多机械化的操作。 下面是全文的代码:(仅供参考)

#-*- coding: utf-8 -*- import xml.etree.ElementTree as ET import os xmldir = 'xml' newxmldir = 'newxml' if not os.path.exists(newxmldir): #如果没有存放新xml的文件,那么就创建一个. os.makedirs(newxmldir) for xml in os.listdir(xmldir): xmlpath = os.path.join(xmldir, xml) newxmlpath = os.path.join(newxmldir, xml) print("****************************") print("原始路径: ",xmlpath) print("新文件的路径:", xmlpath) tree = ET.parse(xmlpath) root = tree.getroot() #root 有tag和attrib两个属性 #print(root.tag,root.attrib) #for child in root: # print(child.tag, child.attrib) 查看树子支的标签 for obj in root.findall('country'): name = obj.find('rank') if name.text == '1': name.text = '修改1' elif name.text == '4': name.text = '修改4' tree.write(newxmlpath, 'UTF-8') print(xmlpath + ' 已修改')

其中一部分print是用作测试功能的,可以省略的,只是为了更好的理解。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3