python语言解析xml文件-悠悠_Mother-ChinaUnix博客

悠悠_Mother的ChinaUnix博客

首页　| 　博文目录　| 　关于我

悠悠_Mother

博客访问： 103130
博文数量： 45
博客积分： 0
博客等级：民兵
技术积分： 368
用户组：普通用户
注册时间： 2014-01-21 16:28

文章分类

全部博文（45）

python+selenium（8）
RFS（5）
MySQL（1）
linux（7）
python（22）
未分配的博文（2）

文章存档

2014年（45）

我的朋友

相关博文

python语言解析xml文件

分类： LINUX

2014-06-05 16:00:05

原文地址：python语言解析xml文件作者：gch12vsf

转载来源：

python语言解析xml文件的常用的有两种方式：

通过MiniDom库解析xml文件
通过ElementTree库解析xml文件

MiniDom方式解析xml

xml文件以data.xml为例，具体操作如下：

data.xml:

1.0" encoding="utf-8"?>

保存用户的信息

auto_userone
Jordy
12345678
20
<***>男
上网

auto_usertwo
功夫
34443678
18
<***>男
功夫

1. 得到DOM对象

DOM是Document Object Model的简称，它是以对象树来表示一个XML。

import xml.dom.minidom

#得到dom对象

dom = xml.dom.minidom.parse("data.xml")

2. 得到文档元素对象

#得到文档元素对象

root = dom.documentElement #这里得到的是根节点info

#打印根节点的名字节点的值节点类型

print root.nodeName,root.nodeValue,root.nodeType

节点的属性：

每一个节点都有它的nodeName，nodeValue，nodeType属性。nodeName为节点名字。

nodeValue是节点的值，只对文本节点有效。nodeType是节点的类型，现在有以下几种：

‘ATTRIBUTE_NODE’
‘CDATA_SECTION_NODE’
‘COMMENT_NODE’
‘DOCUMENT_FRAGMENT_NODE’
‘DOCUMENT_NODE’
‘DOCUMENT_TYPE_NODE’
‘ELEMENT_NODE’
‘ENTITY_NODE’
‘ENTITY_REFERENCE_NODE’
‘NOTATION_NODE’
‘PROCESSING_INSTRUCTION_NODE’
‘TEXT_NODE’

3.子元素、子节点的访问

对于已经知道元素名字的子元素，可以通过使用getElementsByTagName_r()方法访问，例：

root.getElementsByTagName_r("intro") #读取intro子元素

返回的结果是一个列表。

如果要得到某元素下的所有子节点，可以使用childNodes属性:

root.childNodes

getElementsByTagName_r()可以搜索当前元素的所有子元素，包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。

比如：我们想要得到intro元素下的值“保存用户的信息”，实现如下代码：

node = root.getElementsByTagName_r("intro")[0]

for node in node.childNodes:

if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):

print node.data

这种方式在获取元素的文本时，需要先判断才行，所以使用起来感觉不是太方便。

ElementTree库解析xml文件

ElementTree属于python标准库的一部分,ElementTree的parse()方法是这个库的主要入口，它使用文件名或流对象作为参数，parse()方法会立即解析完整个文档，它返回的对象是整个文档的对象，而不是根元素，如果要获取根元素，可以调用getroot()方法。

使用上述的data.xml文档，通过ElementTree库解析的代码：

import xml.etree.ElementTree as ET

#读取xml文件
def load_xml_file(fileName):
root = ET.parse(fileName).getroot()

#获取文件描述
intro = root.find('intro').text
print intro

#获取所有list节点
all_users = root.findall('list')
#遍历list节点的子元素
for user in all_users:
#得到head节点的文本
head = user.find('head').text
#得到name节点的文本
name = user.find('name').text
#得到***节点的文本
*** = user.find('***').text
print head,name,***

if __name__ == '__main__':

load_xml_file('data.xml')

通过这种方式解析xml文件比起使用minidom库解析xml文件的，操作要方便的多。

阅读(641) | 评论(0) | 转发(0) |

上一篇：selenium

下一篇：python 解析xml:DOM与 python 库xml.dom.minidom

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6