首页 > 代码库 > 利用Python编写网络爬虫下载文章
利用Python编写网络爬虫下载文章
今天来讲如何利用Python爬虫下载文章,拿韩寒的博客为例来一步一步进行详细探讨。。。
韩寒的博客地址是:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
可以看出左边是文章列表,而且不止一页,我们先从最简单的开始,先对一篇文章进行下载,再研究对一页所有的文
章进行下载,最后再研究对所有的文章下载。
第一步:对一篇文章下载
我们打开韩寒的博客,然后查看源码,可以看出每一篇文章的列表源码为:
<span class="atc_title"><a title="东望洋" target="_blank"
href=http://www.mamicode.com/"http://blog.sina.com.cn/s/blog_4701280b0102eck1.html">东望洋</a></span>
我们主要是想提取出中间绿色部分的URL,然后找到这篇文章的正文进行分析,然后提取进行下载。首先,假
设已经得到这个字符串,然后研究如何提取这个URL,观察发现,对于所有的这类字符串,都有一个共同点,那
就是都含有子串‘<a title=‘,‘href=http://www.mamicode.com/‘和‘.html‘,那么我们可以用最笨的方式---查找子串进行定界。
在Python中有一个方法叫做find(),是用来查找子串的,返回子串出现的位置,那么,可以用如下代码来提
取URL,并读取文件和下载文件。
#encoding:utf-8 import urllib2 def getURL(str): start = str.find(r‘href=http://www.mamicode.com/‘)>
第二,三步:下载所有的文章
在这一步中,我们要提取第一页所有的文章的URL和标题,不再采用上面第一步的find()函数,毕竟这个函数
缺乏灵活性,那么采用正则表达式最好。
首先采集数据,观察发现,所有文章的URL都符合
<a title="..." target="_blank" href=http://www.mamicode.com/"http://blog.sina.com.cn....html">
这一规则,所以我们可以设置正则表达式
r‘<a title=".+" target="_blank" href=http://www.mamicode.com/"(http://blog.sina\.com.\cn.+.\html)">‘
这样就容易了,下面是爬取韩寒所有文章,并在本地保存为.html文件。
代码:
#coding:utf-8 import re import urllib2 def getPageURLs(url): text = urllib2.urlopen(url).read() pattern = r‘<a title=".+" target="_blank" href=http://www.mamicode.com/"(http://blog.sina/.com./cn.+./html)">‘>
由于我把文章的标题用一个数字来命名,似乎不是很完美,还有两个问题没有解决,怎么提取文章的标题?,这是涉
及到中文提取,怎么把文章的内容提取出来保存为txt格式的文件?
如果能解决上面的两个问题,那么才算是真正地用网络爬虫技术实现了对韩寒博客的下载。
(1)提取文章的标题
为了方便操作,我们用BeautifulSoup来分析网页,对html文本我们提取title之间的内容为
<title>东望洋_韩寒_新浪博客</title>
对这个强制转化为字符串,然后进行切片操作,大致取string[7 : -28],得到了文章的标题。
from bs4 import BeautifulSoup import re for i in xrange(1,317): filename = ‘HanhanArticle/‘ + str(i) + ‘.html‘ html = open(filename,‘r‘) soup = BeautifulSoup(html) html.close() title = soup.find(‘title‘) string = str(title) article = string[7 : -28].decode(‘utf-8‘) if article[0] != ‘.‘: print article
但是有些标题直接的内容还需要处理,比如<<ONE IS ALL>>,本来应该解释为《ONE IS ALL》
还有比如中央电视台很*很**,这里的**在文件中不能作为名称字符。
#coding:utf-8 import re import urllib2 from bs4 import BeautifulSoup def getPageURLs(url): text = urllib2.urlopen(url).read() pattern = r‘<a title=".+" target="_blank" href=http://www.mamicode.com/"(http://blog.sina/.com/.cn.+/.html)">‘>
提取正文部分后续再处理。。。