您的位置:首页 > 编程语言 > Python开发

python对XML的解析

2012-07-24 13:02 218 查看
python有三种方法解析XML,SAX,DOM,以及ElementTree

###1.SAX(simpleAPIforXML)

pyhton标准库包含SAX解析器,SAX是一种典型的极为快速的工具,在解析XML时,不会占用大量内存。

但是这是基于回调机制的,因此在某些数据中,它会调用某些方法进行传递。这意味着必须为数据指定句柄,

以维持自己的状态,这是非常困难的。

###2.DOM(DocumentObjectModel)

与SAX比较,DOM典型的缺点是比较慢,消耗更多的内存,因为DOM会将整个XML数读入内存中,并为树

中的第一个节点建立一个对象。使用DOM的好处是你不需要对状态进行追踪,因为每一个节点都知道谁是它的

父节点,谁是子节点。但是DOM用起来有些麻烦。

###3.ElementTree(元素树)

ElementTree就像一个轻量级的DOM,具有方便友好的API。代码可用性好,速度快,消耗内存少,这里主要

介绍ElementTree。

下面是一个转载的例子:

test.xml如下:

01
<
span
style
=
"font-size:13px;"
><?
xml
version
=
"1.0"
encoding
=
"utf-8"
?>
02
<
root
>
03
<
person
age
=
"18"
>
04
<
name
>hzj</
name
>
05
<
sex
>man</
sex
>
06
</
person
>
07
<
person
age
=
"19"
des
=
"hello"
>
08
<
name
>kiki</
name
>
09
<
sex
>female</
sex
>
10
</
person
>
11
</
root
></
span
>
1.加载xml文件

加载XML文件共有2种方法,一是加载指定字符串,二是加载指定文件

2.获取element的方法

a)通过getiterator

b)过getchildren

c)find方法

d)findall方法

01
#-*-
coding:utf-8-*-
02
from
xml.etree
import
ElementTree
03
def
print_node(node):
04
'''打印结点基本信息'''
05
print
"=============================================="
06
print
"node.attrib:%s"
%
node.attrib
07
if
node.attrib.has_key(
"age"
)
>
0
:
08
print
"node.attrib['age']:%s"
%
node.attrib[
'age'
]
09
print
"node.tag:%s"
%
node.tag
10
print
"node.text:%s"
%
node.text
11
def
read_xml(text):
12
'''读xml文件'''
13
#
加载XML文件(2种方法,一是加载指定字符串,二是加载指定文件)
14
#
root=ElementTree.parse(r"D:/test.xml")
15
root
=
ElementTree.fromstring(text)
16
17
#
获取element的方法
18
#
1通过getiterator
19
lst_node
=
root.getiterator(
"person"
)
20
for
node
in
lst_node:
21
print_node(node)
22
23
#
2通过getchildren
24
lst_node_child
=
lst_node[
0
].getchildren()[
0
]
25
print_node(lst_node_child)
26
27
#
3.find方法
28
node_find
=
root.find(
'person'
)
29
print_node(node_find)
30
31
#4.
findall方法
32
node_findall
=
root.findall(
"person/name"
)[
1
]
33
print_node(node_findall)
34
35
if
__name__
=
=
'__main__'
:
36
read_xml(
open
(
"test.xml"
).read())
想想为什么?不明白,请看下面

01
#encoding=utf-8
02
from
xml.etree
import
ElementTree
asET
03
#要找出所有人的年龄
04
per
=
ET.parse(
'test.xml'
)
05
p
=
per.findall(
'/person'
)
06
for
x
in
p:
07
print
x.attrib
08
print
09
for
oneper
in
p:
#找出person节点
10
for
child
in
oneper.getchildren():
#找出person节点的子节点
11
print
child.tag,
':'
,child.text
12
13
print
'age:'
,oneper.get(
'age'
)
14
print
'############'
结果如下:

查看源码

打印?

01
{
'age'
:
'18'
}
02
{
'age'
:
'19'
,
'des'
:
'hello'
}
03
04
name
:hzj
05
sex
:man
06
age:
18
07
############
08
name
:kiki
09
sex
:female
10
age:
19
11
############
转自:http://blog.csdn.net/yueguanghaidao/article/details/7265246
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: