首页 > 代码库 > python编写网络爬虫

python编写网络爬虫

 一,利用网络爬虫来下载韩寒博客文章,主要需要用到以下知识要点:

1,简要了解HTML标记语言,熟悉HTTP协议,发现HTML规律

2,熟悉urllib模块

3,熟悉python

在此我利用的是ie8的开发者工具,当然也可以使用比较出名的firebug,这是火狐的一个插件,十分好用。

中心思想:获取URL链接,然后利用文件的读写存到本地。

第一篇:下载单篇文章:

#coding:utf-8
import urllib
str0 = ‘<a title="《论电影的七个元素》——关于我对电影的一些看法以及《后会无期》的一些消息" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html" target="_blank">‘
title = str0.find(r‘<a title‘)
print title
href = str0.find(r‘href=http://www.mamicode.com/‘)>

wKiom1RHrniQrBsYAAQzr5QxkMU305.jpg

 

(完)

本文出自 “天才的实力” 博客,请务必保留此出处http://8299474.blog.51cto.com/8289474/1566906

python编写网络爬虫