首页 > 代码库 > python编写网络爬虫
python编写网络爬虫
一,利用网络爬虫来下载韩寒博客文章,主要需要用到以下知识要点:
1,简要了解HTML标记语言,熟悉HTTP协议,发现HTML规律
2,熟悉urllib模块
3,熟悉python
在此我利用的是ie8的开发者工具,当然也可以使用比较出名的firebug,这是火狐的一个插件,十分好用。
中心思想:获取URL链接,然后利用文件的读写存到本地。
第一篇:下载单篇文章:
#coding:utf-8 import urllib str0 = ‘<a title="《论电影的七个元素》——关于我对电影的一些看法以及《后会无期》的一些消息" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html" target="_blank">‘ title = str0.find(r‘<a title‘) print title href = str0.find(r‘href=http://www.mamicode.com/‘)>
(完)
本文出自 “天才的实力” 博客,请务必保留此出处http://8299474.blog.51cto.com/8289474/1566906
python编写网络爬虫
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。