Python 开发轻量级爬虫

(imooc总结01--课程目标)

课程目标：掌握开发轻量级爬虫

    为什么说是轻量级的呢？因为一个复杂的爬虫需要考虑的问题场景非常多，比如有些网页需要用户登录了以后才能够访问，有些网页是使用了Ajax异步加载的内容，这些网页的抓取就会比较复杂。这里只会考虑不需要登录的静态加载网页的抓取。课程包含以下内容：1.爬虫简介    介绍爬虫是什么？它实现了什么功能？2.简单爬虫架构    介绍简单的爬虫架构，架构中包含了哪些模块，这些模块怎么组装在一起完成整个爬取任务的。但该架构经过拓展是可以爬取所有互联网网页的。该架构包括三大模块。3.URL管理器    用来管理将要抓取的url和已经抓取过的url，这两方面的内容。4.网页下载器(urllib2)    给定一个url，需要将一个url的网页下载到本地以后，才能进行后续的分析。这里使用Python自带的模块urllib2进行网页的下载。5.网页解析器(BeautifulSoup)    得到网页的内容以后，需要通过解析，才能够提取出我们想要的感兴趣的内容。BeautifulSoup是python的第三方插件，通过这个插件可以很好的对网页进行解析。介绍完了爬虫架构和三大模块以后，来看一个完整实例。6.完整实例    爬取百度百科Pyhon词条相关的1000个页面数据    这个实例首先实现了架构的代码，然后用它来爬取百度百科Python词条相关的1000个网页数据，然后将这些数据写出到一个html页面中，打开这个页面，就可以看到我们所有已经爬取好的数据。以上就是接下来将要简单介绍的所有知识点。

Python 开发轻量级爬虫01

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python 开发轻量级爬虫01

Python 开发轻量级爬虫01

Python 开发轻量级爬虫

(imooc总结01--课程目标)

课程目标：掌握开发轻量级爬虫

看完仍有疑问？有类似问题直接问程序猿