python解析xml的方法总结 -刘一痕-ChinaUnix博客

helloworldddddliuyihen.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

刘一痕

博客访问： 2353346
博文数量： 168
博客积分： 3184
博客等级：中校
技术积分： 3959
用户组：普通用户
注册时间： 2009-05-12 18:57

文章分类

全部博文（168）

golang开发（5）
系统运维（6）
阿里云服务器（6）
PHP开发（2）
服务器类（2）
数据库技术（5）
系统安全（0）
前端开发（9）
架构设计（3）
python（42）
linux内核（1）
慧海拾贝（2）
开发工具应用（12）
网络通信（1）
linux高级编程（7）
linux驱动开发（15）
linux系统应用（10）
linux函数的用法（15）
C语言源码（4）
linux C基础（17）
未分配的博文（4）

文章存档

2019年（1）

2018年（2）

2017年（3）

2016年（15）

2015年（10）

2014年（60）

2011年（1）

2010年（76）

我的朋友

python自带的xml处理模块xml.dom.minidom 解析xml

可以使用该模块提供的”getElementsByTagName“接口找到需要的节点,实例“get_tagname”如下：

Python代码

import xml.dom.minidom def get_tagname(): doc = xml.dom.minidom.parseString(input_xml_string) for node in doc.getElementsByTagName("data"): print (node, node.tagName, node.getAttribute("version"))

程序运行结果如下：

(, u'data', u'1.0')  
(, u'data', u'2.0')  
(, u'data', u'1.0')  
(, u'data', u'2.0')

观察上面的运行结果，”getElementsByTagName“接口查找名为data的所有节点，有时候，程序需要完成的功能是只需要某个节点下面的 data节点，如other节点下的data节点。也许您马上想到了，我们可以判断data节点的父节点是否为other来满足功能，实例 “get_tagname_other”如下：

import xml.dom.minidom def get_tagname_other(): doc = xml.dom.minidom.parseString(input_xml_string) for node in doc.getElementsByTagName("data"): if node.parentNode.tagName == "other": print (node, node.tagName, node.getAttribute("version"))

程序运行结果如下：

(, u'data', u'1.0')  
(, u'data', u'2.0')

观察上面的运行结果，恩，很好，问题是解决了，但是如果我想查找other节点下的data节点且属性节点version等于1.0的那个data节点，那么就需要添加更多的策略来筛选出我们需要的数据，显然这种方式不够灵活，因此我们想到了使用xpath的方式去搜索我们需要的节点。实例 “get_xpath”如下：

import xml.etree.ElementTree from StringIO import StringIO file = StringIO(input_xml_string) def get_xpath(): doc = xml.etree.ElementTree.parse(file) for node in doc.findall("//item/data"): print (node, node.tag, (node.items()))

程序运行结果如下：

(, 'data', [('url', 'http://***'), ('version', '1.0')])  
(, 'data', [('url', 'http://***'), ('version', '2.0')])

观察上面的运行结果，使用xpath的方式显然改善了程序的可读性，可依然没有解决上面的问题，这是由于python自带的xml模块对xpath方式的支持先天不足，如果想同时满足可读性与功能的正确性，我们需要使用针对python的第三方xml处理类库。

使用libxml2解析xml

libxml2是使用C语言开发的xml解析器，是一个基于MIT License的免费开源软件，多种编程语言都有基于它的实现，如本文将会介绍的lxml模块。实例“get_xpath_1”如下：

mport libxml2
def get_xpath_1():
doc = libxml2.parseFile("data.xml")#data.xml文件结构与上述的input_xml_string相同
for node in doc.xpathEval("//item/data[@version = '1.0']"):
print (node, node.name, (node.properties.name, node.properties.content))
doc.freeDoc()
程序运行结果如下：

(, 'data', ('version', '1.0'))

观察上面的运行结果，能够满足我们的需求，有点小不足“xpathEval()”接口不支持类似模板的用法，但不影响使用，由于libxml2采用C语言开发的，因此在使用API接口的方式上难免会有点“水土不服”(写法或习惯性用法)

使用lxml解析xml

lxml是以上述介绍过的libxml2为基础采用python语言开发的，从使用层面上说比libxml2更适合python开发者(鄙人感受)，且"xpath"接口支持类似模板的用法，实例“get_xpath_2”如下：

import lxml.etree def get_xpath_2(): doc = lxml.etree.parse(file) for node in doc.xpath("//item/data[@version = $name]", name = "1.0"): print (node, node.tag, (node.items()))

程序运行结果如下：

(, 'data', [('version', '1.0'), ('url', 'http://***')])

使用xpath模块解析xml

xpath是python官方推荐的一个支持xpath等处理的模块，是基于本文介绍过的python自带xml处理模块扩展而成，可以很好的结合使用，同时“find”接口也支持类似模板的用法，实例“get_xpath_3”如下：

Python代码

import xpath def get_xpath_3(): doc = xml.dom.minidom.parseString(input_xml_string) for node in xpath.find("//item/data[@version = $name]", doc, name = "1.0"): print (node, node.tagName, node.getAttribute("version"))

程序运行结果如下：

(, u'data', u'1.0')

总结:

通过对这些类库的实践，我们已经了解了python在处理xml格式的数据时有各种各样的选择，并得知这些类库各自擅长那些方面的处理和各种类库的使用手法，可以根据实际需求选择合适的类库完成开发工作。

阅读(25693) | 评论(0) | 转发(7) |

上一篇：zend studio vim插件安装

下一篇：python numpy教程

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6