Python对XML文件的全方位操作指南

张

张建站

2026/8/1 7:54:52

10分钟阅读

在数据交换和存储领域XML可扩展标记语言凭借其灵活性和可读性占据着重要地位。Python作为一门功能强大的编程语言提供了多种方式来操作XML文件无论是读取、写入、修改还是删除都能轻松应对。本文将深入探讨Python操作XML文件的多种方法并结合实际案例进行详细说明。一、XML文件基础XML文件由一系列标签组成这些标签可以包含属性标签之间可以嵌套形成树状结构。例如一个简单的XML文件可能如下所示?xml version1.0 encodingUTF-8?librarybookid1001titlePython编程/titleauthor埃里克·马瑟斯/authorprice89.0/price/bookbookid1002titleXML基础教程/titleauthor李四/authorprice59.0/price/book/library这个XML文件描述了一个图书馆的藏书信息包含了两本书的详细信息每本书都有唯一的id属性以及title、author和price等子标签。二、Python操作XML文件的常用库Python标准库中提供了多种处理XML文件的方式主要包括xml.etree.ElementTree、xml.dom.minidom和xml.sax。此外还有第三方库lxml它提供了更强大的功能和更好的性能。1.xml.etree.ElementTreeETxml.etree.ElementTree是Python标准库中用于处理XML文件的轻量级库它提供了简单易用的API能够满足大多数XML处理场景的需求。ET具有占用内存小、速度快、使用方便等优点是处理XML文件的首选库。读取XML文件使用ET读取XML文件非常简单只需调用ET.parse()函数即可。该函数接受一个文件路径作为参数返回一个ElementTree对象通过该对象的getroot()方法可以获取XML文件的根元素。importxml.etree.ElementTreeasET# 读取XML文件treeET.parse(library.xml)roottree.getroot()# 遍历根元素的子元素forbookinroot:book_idbook.get(id)titlebook.find(title).text authorbook.find(author).text pricebook.find(price).textprint(fID:{book_id}, 标题:{title}, 作者:{author}, 价格:{price})上述代码首先读取library.xml文件然后遍历根元素library的子元素book获取每本书的id、title、author和price信息并打印出来。写入XML文件使用ET写入XML文件需要先创建根元素然后通过ET.SubElement()函数创建子元素并设置子元素的文本内容和属性。最后将根元素封装成ElementTree对象并调用write()方法将XML文件写入磁盘。importxml.etree.ElementTreeasET# 创建根元素rootET.Element(library)# 创建第一本书的元素book1ET.SubElement(root,book,id1003)ET.SubElement(book1,title).textJava编程ET.SubElement(book1,author).text张三ET.SubElement(book1,price).text79.0# 创建第二本书的元素book2ET.SubElement(root,book,id1004)ET.SubElement(book2,title).textC编程ET.SubElement(book2,author).text李四ET.SubElement(book2,price).text85.0# 创建ElementTree对象并写入文件treeET.ElementTree(root)tree.write(new_library.xml,encodingutf-8,xml_declarationTrue)上述代码创建了一个新的XML文件new_library.xml包含了两本书的信息。修改XML文件修改XML文件通常需要先读取文件然后找到需要修改的元素修改其文本内容或属性最后将修改后的XML文件保存到磁盘。importxml.etree.ElementTreeasET# 读取XML文件treeET.parse(library.xml)roottree.getroot()# 修改第一本书的价格forbookinroot:ifbook.get(id)1001:price_elembook.find(price)price_elem.text85.0price_elem.set(currency,CNY)# 保存修改后的XML文件tree.write(modified_library.xml,encodingutf-8,xml_declarationTrue)上述代码将id为1001的书的price标签的文本内容修改为85.0并添加了一个currency属性。删除XML文件中的元素删除XML文件中的元素需要先找到需要删除的元素然后调用父元素的remove()方法将其删除。importxml.etree.ElementTreeasET# 读取XML文件treeET.parse(library.xml)roottree.getroot()# 删除id为1002的书forbookinroot:ifbook.get(id)1002:root.remove(book)# 保存修改后的XML文件tree.write(deleted_library.xml,encodingutf-8,xml_declarationTrue)上述代码将id为1002的书从XML文件中删除。2.xml.dom.minidomxml.dom.minidom是Python标准库中用于解析和操作XML文件的DOM实现。DOM将整个XML文件读入内存并解析为一个树状结构通过对树的操作来操作XML文件。DOM方式占用内存较大解析速度较慢但提供了丰富的API可以方便地进行各种操作。读取XML文件使用xml.dom.minidom读取XML文件需要调用parse()函数该函数接受一个文件路径作为参数返回一个Document对象。通过该对象的documentElement属性可以获取XML文件的根元素。fromxml.dom.minidomimportparse# 读取XML文件domparse(library.xml)rootdom.documentElement# 获取所有book元素booksroot.getElementsByTagName(book)forbookinbooks:book_idbook.getAttribute(id)titlebook.getElementsByTagName(title)[0].childNodes[0].nodeValue authorbook.getElementsByTagName(author)[0].childNodes[0].nodeValue pricebook.getElementsByTagName(price)[0].childNodes[0].nodeValueprint(fID:{book_id}, 标题:{title}, 作者:{author}, 价格:{price})上述代码读取library.xml文件获取所有book元素并打印每本书的id、title、author和price信息。写入XML文件使用xml.dom.minidom写入XML文件需要先创建Document对象然后创建根元素和子元素并设置子元素的文本内容和属性。最后调用toprettyxml()方法将XML文件格式化为字符串并写入磁盘。fromxml.dom.minidomimportDocument# 创建Document对象docDocument()# 创建根元素rootdoc.createElement(library)doc.appendChild(root)# 创建第一本书的元素book1doc.createElement(book)book1.setAttribute(id,1003)root.appendChild(book1)title1doc.createElement(title)title1.appendChild(doc.createTextNode(Java编程))book1.appendChild(title1)author1doc.createElement(author)author1.appendChild(doc.createTextNode(张三))book1.appendChild(author1)price1doc.createElement(price)price1.appendChild(doc.createTextNode(79.0))book1.appendChild(price1)# 创建第二本书的元素book2doc.createElement(book)book2.setAttribute(id,1004)root.appendChild(book2)title2doc.createElement(title)title2.appendChild(doc.createTextNode(C编程))book2.appendChild(title2)author2doc.createElement(author)author2.appendChild(doc.createTextNode(李四))book2.appendChild(author2)price2doc.createElement(price)price2.appendChild(doc.createTextNode(85.0))book2.appendChild(price2)# 将XML文件写入磁盘xml_strdoc.toprettyxml(indent )withopen(new_library_dom.xml,w,encodingutf-8)asf:f.write(xml_str)上述代码创建了一个新的XML文件new_library_dom.xml包含了两本书的信息。3.xml.saxxml.sax是Python标准库中用于解析XML文件的SAX实现。SAX采用流式处理方式逐行扫描XML文件边扫描边解析占用内存较小速度较快但需要用户实现回调函数来处理解析过程中触发的事件。读取XML文件使用xml.sax读取XML文件需要定义一个继承自ContentHandler的类并实现其中的startElement()、endElement()和characters()方法。然后创建一个SAXParser对象并设置其ContentHandler为自定义的类最后调用parse()方法解析XML文件。importxml.saxclassBookHandler(xml.sax.ContentHandler):def__init__(self):self.current_dataself.book_idself.titleself.authorself.pricedefstartElement(self,tag,attributes):self.current_datatagiftagbook:self.book_idattributes[id]defendElement(self,tag):iftagtitle:print(f标题:{self.title})eliftagauthor:print(f作者:{self.author})eliftagprice:print(f价格:{self.price})self.current_datadefcharacters(self,content):ifself.current_datatitle:self.titlecontentelifself.current_dataauthor:self.authorcontentelifself.current_dataprice:self.pricecontent# 创建SAXParser对象并解析XML文件parserxml.sax.make_parser()handlerBookHandler()parser.setContentHandler(handler)parser.parse(library.xml)上述代码定义了一个BookHandler类用于处理解析过程中触发的事件。然后创建一个SAXParser对象并设置其ContentHandler为BookHandler最后调用parse()方法解析library.xml文件。4.lxmllxml是一个第三方库它提供了比xml.etree.ElementTree更强大的功能和更好的性能。lxml支持XPath查询、XSLT转换、Schema校验等高级功能是处理复杂XML文件的理想选择。安装lxml使用pip安装lxml库pipinstalllxml读取XML文件使用lxml读取XML文件与使用xml.etree.ElementTree类似只需调用etree.parse()函数即可。fromlxmlimportetree# 读取XML文件treeetree.parse(library.xml)roottree.getroot()# 使用XPath查询所有价格大于60的书high_price_booksroot.xpath(.//book[price60])forbookinhigh_price_books:titlebook.find(title).textprint(f高价书:{title})上述代码使用XPath查询所有价格大于60的书并打印其标题。写入XML文件使用lxml写入XML文件需要先创建根元素然后通过etree.SubElement()函数创建子元素并设置子元素的文本内容和属性。最后将根元素封装成ElementTree对象并调用write()方法将XML文件写入磁盘。fromlxmlimportetree# 创建根元素rootetree.Element(library)# 创建第一本书的元素book1etree.SubElement(root,book,id1003)etree.SubElement(book1,title).textJava编程etree.SubElement(book1,author).text张三etree.SubElement(book1,price).text79.0# 创建第二本书的元素book2etree.SubElement(root,book,id1004)etree.SubElement(book2,title).textC编程etree.SubElement(book2,author).text李四etree.SubElement(book2,price).text85.0# 创建ElementTree对象并写入文件treeetree.ElementTree(root)tree.write(new_library_lxml.xml,pretty_printTrue,encodingutf-8,xml_declarationTrue)上述代码创建了一个新的XML文件new_library_lxml.xml包含了两本书的信息并使用pretty_printTrue参数使XML文件格式化输出。三、总结Python提供了多种方式来操作XML文件包括xml.etree.ElementTree、xml.dom.minidom、xml.sax和lxml。xml.etree.ElementTree是处理XML文件的首选库它具有占用内存小、速度快、使用方便等优点。xml.dom.minidom提供了丰富的API但占用内存较大解析速度较慢。xml.sax采用流式处理方式占用内存较小速度较快但需要用户实现回调函数。lxml是一个第三方库提供了比xml.etree.ElementTree更强大的功能和更好的性能支持XPath查询、XSLT转换、Schema校验等高级功能。在实际应用中应根据具体需求选择合适的库来操作XML文件。对于简单的XML处理场景xml.etree.ElementTree通常能够满足需求对于复杂的XML处理场景lxml可能是更好的选择。

如何有效测试分布式系统：10个核心方法论深度解析

如何有效测试分布式系统：10个核心方法论深度解析【免费下载链接】testing-distributed-systems Curated list of resources on testing distributed systems 项目地址: https://gitcode.com/gh_mirrors/te/testing-distributed-systems 分布式系统的复杂性使…...

2026/5/8 21:12:31 阅读更多 →

如何快速掌握48tools：一站式多平台视频下载与直播录制解决方案

如何快速掌握48tools：一站式多平台视频下载与直播录制解决方案【免费下载链接】48tools 48工具，提供公演、口袋48直播录源，公演、口袋48录播下载，封面下载，B站直播抓取，B站视频下载，A站直播抓取…...

2026/7/24 21:15:39 阅读更多 →

3步解锁群晖音乐歌词：让Audio Station实现QQ音乐级体验的完整指南

3步解锁群晖音乐歌词：让Audio Station实现QQ音乐级体验的完整指南【免费下载链接】Synology-Lrc-Plugin-For-QQ-Music 用于群晖 Audio Station/DS Audio 的歌词插件 power by QQ music 🙂 项目地址: https://gitcode.com/gh_mirrors/sy/Synology-Lrc…...

2026/5/8 21:12:32 阅读更多 →

D2DX：三步实现《暗黑破坏神2》高清宽屏体验的终极指南

D2DX：三步实现《暗黑破坏神2》高清宽屏体验的终极指南【免费下载链接】d2dx D2DX is a complete solution to make Diablo II run well on modern PCs, with high fps and better resolutions. 项目地址: https://gitcode.com/gh_mirrors/d2/d2dx 你是否还在…...

2026/7/29 17:35:40 阅读更多 →

解决全部报错！OpenClaw Windows适配优化+网关修复教程

🦞教程适配：OpenClaw v2.7.9 | 适配 Windows10/11、macOS 双系统核心亮点：提供全程可视化图形操作界面，自动补齐全套运行依赖，数据独立存储于本地设备，兼容多款主流大模型，并采用轻量化的 45.7…...

2026/7/29 22:41:47 阅读更多 →

【计算机Python毕业设计案例】基于 Python 的智慧校园学生课堂考勤监督管理平台学生请假审批与考勤台账管理系统设计(程序+文档+讲解+定制)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…...

2026/7/29 22:41:49 阅读更多 →

终极免费指南：如何彻底解锁Wand专业版功能，实现手机远程控制游戏修改

终极免费指南：如何彻底解锁Wand专业版功能，实现手机远程控制游戏修改【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/GitHub_Trending/we/Wand-Enhancer 还在为…...

2026/7/29 22:41:50 阅读更多 →