python解析xml的方法总结 -niao5929-ChinaUnix博客

birdofpreybirdofprey.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

niao5929

博客访问： 7341046
博文数量： 3857
博客积分： 6409
博客等级：准将
技术积分： 15948
用户组：普通用户
注册时间： 2008-09-02 16:48

个人简介

迷彩潜伏隐蔽伪装

文章分类

全部博文（3857）

大数据计算（149）
随想（82）
编程语言（372）

python（3）

lisp（0）

JAVA C++（2）

GOLANG（0）
数据库（115）
高可用集群（412）

分布式系统（26）

SDN（0）

细胞节点（78）

分布式网络（5）
Linux（1172）

SHELL（10）

网络（209）
未分配的博文（1555）

文章存档

2017年（5）

2016年（63）

2015年（927）

2014年（677）

2013年（807）

2012年（1241）

2011年（67）

2010年（7）

2009年（36）

2008年（28）

我的朋友

python自带的xml处理模块xml.dom.minidom 解析xml

可以使用该模块提供的”getElementsByTagName“接口找到需要的节点,实例“get_tagname”如下：

Python代码

import xml.dom.minidom def get_tagname(): doc = xml.dom.minidom.parseString(input_xml_string) for node in doc.getElementsByTagName("data"): print (node, node.tagName, node.getAttribute("version"))

程序运行结果如下：

(, u'data', u'1.0')  
(, u'data', u'2.0')  
(, u'data', u'1.0')  
(, u'data', u'2.0')

观察上面的运行结果，”getElementsByTagName“接口查找名为data的所有节点，有时候，程序需要完成的功能是只需要某个节点下面的 data节点，如other节点下的data节点。也许您马上想到了，我们可以判断data节点的父节点是否为other来满足功能，实例 “get_tagname_other”如下：

import xml.dom.minidom def get_tagname_other(): doc = xml.dom.minidom.parseString(input_xml_string) for node in doc.getElementsByTagName("data"): if node.parentNode.tagName == "other": print (node, node.tagName, node.getAttribute("version"))

程序运行结果如下：

(, u'data', u'1.0')  
(, u'data', u'2.0')

观察上面的运行结果，恩，很好，问题是解决了，但是如果我想查找other节点下的data节点且属性节点version等于1.0的那个data节点，那么就需要添加更多的策略来筛选出我们需要的数据，显然这种方式不够灵活，因此我们想到了使用xpath的方式去搜索我们需要的节点。实例 “get_xpath”如下：

import xml.etree.ElementTree from StringIO import StringIO file = StringIO(input_xml_string) def get_xpath(): doc = xml.etree.ElementTree.parse(file) for node in doc.findall("//item/data"): print (node, node.tag, (node.items()))

程序运行结果如下：

(, 'data', [('url', 'http://***'), ('version', '1.0')])  
(, 'data', [('url', 'http://***'), ('version', '2.0')])

观察上面的运行结果，使用xpath的方式显然改善了程序的可读性，可依然没有解决上面的问题，这是由于python自带的xml模块对xpath方式的支持先天不足，如果想同时满足可读性与功能的正确性，我们需要使用针对python的第三方xml处理类库。

使用libxml2解析xml

libxml2是使用C语言开发的xml解析器，是一个基于MIT License的免费开源软件，多种编程语言都有基于它的实现，如本文将会介绍的lxml模块。实例“get_xpath_1”如下：

mport libxml2
def get_xpath_1():
doc = libxml2.parseFile("data.xml")#data.xml文件结构与上述的input_xml_string相同
for node in doc.xpathEval("//item/data[@version = '1.0']"):
print (node, node.name, (node.properties.name, node.properties.content))
doc.freeDoc()
程序运行结果如下：

(, 'data', ('version', '1.0'))

观察上面的运行结果，能够满足我们的需求，有点小不足“xpathEval()”接口不支持类似模板的用法，但不影响使用，由于libxml2采用C语言开发的，因此在使用API接口的方式上难免会有点“水土不服”(写法或习惯性用法)

使用lxml解析xml

lxml是以上述介绍过的libxml2为基础采用python语言开发的，从使用层面上说比libxml2更适合python开发者(鄙人感受)，且"xpath"接口支持类似模板的用法，实例“get_xpath_2”如下：

import lxml.etree def get_xpath_2(): doc = lxml.etree.parse(file) for node in doc.xpath("//item/data[@version = $name]", name = "1.0"): print (node, node.tag, (node.items()))

程序运行结果如下：

(, 'data', [('version', '1.0'), ('url', 'http://***')])

使用xpath模块解析xml

xpath是python官方推荐的一个支持xpath等处理的模块，是基于本文介绍过的python自带xml处理模块扩展而成，可以很好的结合使用，同时“find”接口也支持类似模板的用法，实例“get_xpath_3”如下：

Python代码

import xpath def get_xpath_3(): doc = xml.dom.minidom.parseString(input_xml_string) for node in xpath.find("//item/data[@version = $name]", doc, name = "1.0"): print (node, node.tagName, node.getAttribute("version"))

程序运行结果如下：

(, u'data', u'1.0')

总结:

通过对这些类库的实践，我们已经了解了python在处理xml格式的数据时有各种各样的选择，并得知这些类库各自擅长那些方面的处理和各种类库的使用手法，可以根据实际需求选择合适的类库完成开发工作。

阅读(368) | 评论(0) | 转发(0) |

上一篇：Linux内核Socket实现之------Socket创建（1）

下一篇：linux高级技巧：rsync同步（一）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6