Scrapy模块

首页 > 代码库 > Scrapy模块

2024-09-17 15:54:12 217人阅读

1、 Scrapy选择器XPath和CSS

scrapy提取数据有自己的一套机制，他们被称为选择器（selector），通过特定的XPath或者CSS表达式来"选择""HTML文件中的某个部分"

Xpath是一门在XML文件中选择节点的语言，也可以用在HTML，CSS是一门将HTML文档样式化的语言，选择器由他定义，并于特定的HTML元素的样式相关联

scrapy的选择器构建与lxml库之上，这意味着他们的速度和解析准确性上非常相似。

(1)、 Xpath选择器

在Xpath中有7种类型的节点：元素，属性，文本，命名空间，处理指令，注释以及文档节点。XML文档是被作为节点数来对待的。

创建一个superHero.xml文档

<superHero>
<class>
<name lang="en">Tony Stark</name>
<alias>Iron Man</alias>
<sex>male</sex>
<birthday>1969</birthday>
<age>47</age>
</class>
<class>
<name lang="en">Peter Benjamin</name>
<alias>Spider Man</alias>
<sex>male</sex>
<birthday>unknown</birthday>
<age>unknown</age>
</class>
<class>
<name lang="en">Steven Rogers</name>
<alias>Captain Amercia</alias>
<sex>male</sex>
<birthday>19200704</birthday>
<age>96</age>
</class>
</superHero>

在这个superHero中，<superHero>是文档节点，<alias>是元素节点，lang="en"是属性节点。

Xpath使用路径表达式在XML文档中选取节点。下表列出了最常用的路径表达式

Scrapy模块

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Scrapy模块

Scrapy模块

看完仍有疑问？有类似问题直接问程序猿