python中用xpath和xml.dom解析html

首页 > 代码库 > python中用xpath和xml.dom解析html

python中用xpath和xml.dom解析html

2024-08-10 10:45:36 217人阅读

　　本次推荐的组合为xml.dom.minidom和xpath。其中xml.dom.minidom为python的标准库，无须安装。xpath为Google出品的开源项目py-dom-xpath。

　　安装py-dom-xpath:

从https://py-dom-xpath.googlecode.com/files/py-dom-xpath-0.1.tar.gz下载压缩包，解压。
CD到py-dom-xpath-0.1目录
执行命令：C:\python27\python setup.py install
命令执行完成后，此目录多了两个文件夹，分别为build和dist，将/build/lib/文件夹下的xpath目录拷贝至C:\Python27\Lib目录，即安装完成。

　　测试用html文件，simple.html，内容如下：

 1 <!DOCTYPE html> 2 <html> 3 <head> 4 <title>This is a simple html file</title> 5 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> 6 </head> 7 <body> 8 <div> 9     <div>a</div>10     <div>b</div>11     <div>c</div>12 </div>13 </body>14 </html>

　　python文件：

1 import xpath2 import xml.dom.minidom3 4 xml = xml.dom.minidom.parse(‘d:\\GitHub\\python27\\simple.html‘)5 doc = xml.documentElement6 result = xpath.find(‘//div‘,doc)[0].toxml()7 print(result)

　　值得注意的一个问题是，simple.html的第一行，即文档头<!DOCTYPE html>中的‘DOCTYPE’必须大写，否则xml.dom.minidom会解析失败。下一篇文章，将介绍另一个解析html的库，不存在此问题。

技术分享

python中用xpath和xml.dom解析html

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python中用xpath和xml.dom解析html

python中用xpath和xml.dom解析html

看完仍有疑问？有类似问题直接问程序猿