首页 > 代码库 > Scrapy模块
Scrapy模块
1、 Scrapy选择器XPath和CSS
scrapy提取数据有自己的一套机制,他们被称为选择器(selector),通过特定的XPath或者CSS表达式来"选择""HTML文件中的某个部分"
Xpath是一门在XML文件中选择节点的语言,也可以用在HTML,CSS是一门将HTML文档样式化的语言,选择器由他定义,并于特定的HTML元素的样式相关联
scrapy的选择器构建与lxml库之上,这意味着他们的速度和解析准确性上非常相似。
(1)、 Xpath选择器
在Xpath中有7种类型的节点:元素,属性,文本,命名空间,处理指令,注释以及文档节点。XML文档是被作为节点数来对待的。
创建一个superHero.xml文档
<superHero>
<class>
<name lang="en">Tony Stark</name>
<alias>Iron Man</alias>
<sex>male</sex>
<birthday>1969</birthday>
<age>47</age>
</class>
<class>
<name lang="en">Peter Benjamin</name>
<alias>Spider Man</alias>
<sex>male</sex>
<birthday>unknown</birthday>
<age>unknown</age>
</class>
<class>
<name lang="en">Steven Rogers</name>
<alias>Captain Amercia</alias>
<sex>male</sex>
<birthday>19200704</birthday>
<age>96</age>
</class>
</superHero>
在这个superHero中,<superHero>是文档节点,<alias>是元素节点,lang="en"是属性节点。
Xpath使用路径表达式在XML文档中选取节点。下表列出了最常用的路径表达式
Scrapy模块