python解析xml

首页 > 代码库 > python解析xml

2024-07-23 20:32:23 231人阅读

了解xml:

解析xml 之前首先对xml做个了解.

来自维基百科的解释：

XML设计用来传送及携带数据信息，不用来表现或展示数据，HTML语言则用来表现数据，所以XML用途的焦点是它说明数据是什么，以及携带数据信息。

如果你已经了解xml，可以跳过这一部分。

xml是一种描述层次结构化数据的通用方法。xml文档包含由起始和结束标签(tag)分隔的一个或多个元素(element)。以下也是一个完整的(虽然空洞)xml文件：

<foo>   ①
</foo>  ②

①	*这是`foo`元素的起始标签。*
②	*这是`foo`元素对应的结束标签。就如写作、数学或者代码中需要平衡括号一样，每一个起始标签必须有对应的结束标签来闭合（匹配）。*

元素可以嵌套到任意层次。位于foo中的元素bar可以被称作其子元素。

<foo>
  <bar></bar>
</foo>

xml文档中的第一个元素叫做根元素(root element)。并且每份xml文档只能有一个根元素。以下不是一个xml文档，因为它存在两个“根元素”。

<foo></foo>
<bar></bar>

元素可以有其属性(attribute)，它们是一些名字-值(name-value)对。属性由空格分隔列举在元素的起始标签中。一个元素中属性名不能重复。属性值必须用引号包围起来。单引号、双引号都是可以。

<foo lang=‘en‘>                          ①
  <bar id=‘papayawhip‘ lang="fr"></bar>  ②
</foo>

①	`foo`元素有一个叫做`lang`的属性。`lang`的值为`en`
②	`bar`元素则有两个属性，分别为`id`和`lang`。其中`lang`属性的值为`fr`。它不会与`foo`的那个属性产生冲突。每个元素都其独立的属性集。

如果元素有多个属性，书写的顺序并不重要。元素的属性是一个无序的键-值对集，跟Python中的列表对象一样。另外，元素中属性的个数是没有限制的。

元素可以有其文本内容(text content)

<foo lang=‘en‘>
  <bar lang=‘fr‘>PapayaWhip</bar>
</foo>

如果某一元素既没有文本内容，也没有子元素，它也叫做空元素。

<foo></foo>

表达空元素有一种简洁的方法。通过在起始标签的尾部添加/字符，我们可以省略结束标签。上一个例子中的xml文档可以写成这样：

<foo/>

就像Python函数可以在不同的模块(modules)中声明一样，也可以在不同的名字空间(namespace)中声明xml元素。xml文档的名字空间通常看起来像URL。我们可以通过声明xmlns来定义默认名字空间。名字空间声明跟元素属性看起来很相似，但是它们的作用是不一样的。

<feed xmlns=‘http://www.w3.org/2005/Atom‘>  ①
  <title>dive into mark</title>             ②
</feed>

①	`feed`元素处在名字空间`http://www.w3.org/2005/Atom`中。
②	`title`元素也是。名字空间声明不仅会作用于当前声明它的元素，还会影响到该元素的所有子元素。

也可以通过xmlns:prefix声明来定义一个名字空间并取其名为prefix。然后该名字空间中的每个元素都必须显式地使用这个前缀(prefix)来声明。

<atom:feed xmlns:atom=‘http://www.w3.org/2005/Atom‘>  ①
  <atom:title>dive into mark</atom:title>             ②
</atom:feed>

① feed元素属于名字空间http://www.w3.org/2005/Atom。

② title元素也在那个名字空间。

对于xml解析器而言，以上两个xml文档是一样的。名字空间 + 元素名 = xml标识。前缀只是用来引用名字空间的，所以对于解析器来说，这些前缀名(atom:)其实无关紧要的。名字空间相同，元素名相同，属性（或者没有属性）相同，每个元素的文本内容相同，则xml文档相同。

来源： <http://woodpecker.org.cn/diveintopython3/xml.html>