Python 开发轻量级爬虫

(imooc总结08--爬虫实例--分析目标)

怎么开发一个爬虫？开发一个爬虫包含哪些步骤呢？

1.确定要抓取得目标，即抓取哪些网站的哪些网页的哪部分数据。本实例确定抓取Python百度百科词条页面以及相关词条页面的标题和简介。2.分析这个目标，即需要确定抓取这些网站数据的策略。有三部分需要分析。1）需要分析这些目标页面的url格式，用来限定我们要抓取页面的范围。    如果这个范围不进行限定的话，我们的爬虫就会抓取互联网上很多不相关的网页，造成资源的浪费。2）我们需要分析要抓取得数据格式。    在本实例中就要分析，每一个词条页面中标题和简介。这两个数据在标签中的格式。3）分析页面的编码。    在我们代码的解析器这部分，需要指定网页的编码，才能够正确的解析。在分析完目标格式以后，我们进行代码的编写。在代码的解析器这部分，就需要使用到前面分析目标这个步骤所得到的抓取策略结果。3.执行爬虫，进行数据的抓取。从这些步骤中，我们可以看到分析目标，即制定抓取目标数据的策略是非常重要的一部分。打开我们爬虫的入口页，也就是python百度百科词条页面。我们来分析一下抓取这个页面以及相关页面的数据，它的抓取策略是什么？

首先这个页面的url是 http://baike.baidu.com/view/21087.htm

我们来看一下，相关词条页面的url是什么形式？    在这个页面中，任意的词条之上，右键审查元素，可以看到都是/view/xxxx.htm，这是一个不完整的url，在代码中需要在其前面加上baike.baidu.com，把它拼成一个完整的url，才能进行后续的访问。这就是我们得到的url格式。然后，我们来看一下要抓取的标题和简介数据标签格式？    首先我们在python标题上右键审查元素？简介上右键？查看编码格式？通过右键审查元素这种方式，我们就得到了抓取python以及相关词条网页的url格式、数据格式、网页编码，即得到了抓取这些网站数据的抓取策略。目标：百度百科python词条相关词条网页 – 标题和简介

入口页： http://baike.baidu.com/view/21087.htm

url格式：    词条页面url：/view/125370.htm数据格式：    标题：        <dd class="lemmaWgt-lemmaTitle-title">        <h1>Python</h1>        </dd>    简介：        <div class="lemma-summary" label-module="lemmaSummary"></div>    页面编码：utf-8以上就是我们获得抓取python和相关词条网页的抓取策略，这里需要提醒大家的是，每一个互联网的网站都会不停升级它的格式。作为一个定向爬虫来说，如果一个网站的格式发生了升级，我们的抓取策略随即升级。本实例给出的代码，如果运行出错的话可能是网站的格式发生了升级，我们需要打开目标网站，重新制定新的策略，修改代码后才能够重新运行。调度程序    编写实例代码，爬取百度百科python词条页面以及相关1000个页面数据。创建一个 baike_spider来存放python代码，创建所需要的模块。创建spider_main.py  -- 爬虫的总调度程序url_manager  -- url管理器html_downloader – 下载器html_parser – 解析器html_outputer    – 本代码将所有搜集好的数据写出到一个html页面中，打开一个页面就可以看到所有已经爬取好的数据spider_main.py    爬虫总调度程序，会以一个入口的url作为参数来爬取所有的相关的页面。编写main函数，在main函数中，设置下要爬取的入口url  http://baike.baidu.com/view/21087.htm创建一个obj_spider = SpiderMain()首先我们将入口url添加到url管理器，url管理器中已经有了待爬取的url。当url管理器已经有了待爬取的url的时候，获取一个待爬取的url。获取之后，我们启动一个下载器下载这个页面， 结果存储在html_cont中。下载好了页面。我们调用解析器解析这个页面数据，得到新的url列表和新的数据。解析器    我们传入两个参数，当前爬取的url和下载好的页面数据。    解析出来的两个数据 url和数据，进行分别处理。    将url添加进url管理器，将数据输出并收集。    这样如果有一个待爬取的url，我们的爬虫就能够爬取所有的url。最后调用输出收集好的数据。

Python 开发轻量级爬虫08

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python 开发轻量级爬虫08

Python 开发轻量级爬虫08

Python 开发轻量级爬虫

(imooc总结08--爬虫实例--分析目标)

看完仍有疑问？有类似问题直接问程序猿