写在前面的话
我在 github 上用 octopress 搭建了个人博客,octopress 使用Markdown语法编写博文。之前我在CSDN博客上也写过不少的技术博文,都说自己的孩子再丑也是个宝,所以就起了把CSDN博客里面的文章导出到个人博客上的念头。刚开始想找个工具把CSDN博客导出为xml或文本,然后再把xml或文本转换为Markdown博文。可惜搜了一下现有博客导出工具,大部分要收费才能将全部博文导出为xml格式,所以就只好发明轮子了:写个工具将全部博文导出为Markdown博文(也是txt格式的)。
我将详细介绍这个工具的编写过程,希望没有学习过编程的人也能够学会一些简单的Python语法来修改这个脚本工具,以满足他们将其他类型的博客导出为文本格式。这也是我第一次学习和使用Python,所以相信我,你一定也可以将自己的博客导出为想要的文本格式。
本文源代码在这里:ExportCSDNBlog.py
考虑到大部分非程序员使用Windows系统,下面将介绍在Windows下如何编写这个工具。
下载工具
在 Windows 下安装Python开发环境(Linux/Mac下用pip安装相应包即可,程序员自己解决咯):
Python 2.7.3
请安装这个版本,更高版本的Python与一些库不兼容。
下载页面
下载完毕双击可执行文件进行安装,默认安装在C:\Python2.7。
six
下载页面 下载完毕,解压到Python安装目录下,如C:\Python2.7\six-1.8.0目录下。
BeautifulSoup 4.3.2
下载页面, 下载完毕,解压到Python安装目录下,如C:\Python2.7\BeautifulSoup目录下。
html5lib
下载页面 下载完毕,解压到Python安装目录下,如C:\Python2.7\html5lib-0.999目录下。
安装工具
Windows下启动命令行,依次进入如下目录,执行setup.py install进行安装:
C:\Python2.7\six-1.8.0>setup.py install C:\Python2.7\html5lib-0.999>setup.py install C:\Python2.7\BeautifulSoup>setup.py install
参考文档
Python 2.X文档
BeautifulSoup文档
正则表达式文档
正则表达式在线测试
用到的Python语法
这个工具只用到了一些基本的Python语法,如果你没有Python基础,稍微了解一下如下博文是很有好处的。
- string: 字符串操作,参考python: string的操作函数
- list: 列表操作,参考Python list 操作
- dictionary: 字典操作,参考Python中dict详解
- datetime: 日期时间,参考python datetime处理时间
编写博客导出工具
分析
首先来分析这样一个工具的需求:
导出所有CSDN博客文章为Markdown文本。
这个总需求其实可以分两步来做:
* 获得CSDN博客文章* 将文章转换为Markdown文本
针对第一步:如何获取博客文章呢?
打开任何一个CSDN博客,我们都可以看到下方的页面导航显示“XXX条数据 共XXX页 1 2 3 … 尾页”,我们从这个地方入手考虑。每个页面上都会显示属于该页的文章标题及文章链接,如果我们依次访问这些页面链接,就能从每个页面链接中找出属于该页面的文章标题及文章链接。这样所有的文章标题以及文章链接就都获取到了,有了这些文章链接,我们就能获取对应文章的html内容,然后通过解析这些html页面来生成相应Markdown文本了。
实现
从上面的分析可以看出,首先我们需要根据首页获取所有的页面链接,然后遍历每一个页面链接来获取文章链接。
123456789101112131415161718192021222324252627282930313233 | def getPageUrlList(url): # 获取所有的页面的 url request = urllib2.Request(url, None, header) response = urllib2.urlopen(request) data = response.read() #print data soup = BeautifulSoup(data) lastArticleHref = None pageListDocs = soup.find_all(id="papelist") for pageList in pageListDocs: hrefDocs = pageList.find_all("a") if len(hrefDocs) > 0: lastArticleHrefDoc = hrefDocs[len(hrefDocs) - 1] lastArticleHref = lastArticleHrefDoc["href"].encode(‘UTF-8‘) if lastArticleHref == None: return [] #print " > last page href:" + lastArticleHref lastPageIndex = lastArticleHref.rfind("/") lastPageNum = int(lastArticleHref[lastPageIndex+1:]) urlInfo = "http://blog.csdn.net" + lastArticleHref[0:lastPageIndex] pageUrlList = [] for x in xrange(1, lastPageNum + 1): pageUrl = urlInfo + "/" + str(x) pageUrlList.append(pageUrl) log(" > page " + str(x) + ": " + pageUrl) log("total pages: " + str(len(pageUrlList)) + "\n") return pageUrlList
|
参数 url = “http://blog.csdn.net/” + username,即你首页的网址。通过urllib2库打开这个url发起一个web请求,从response中获取返回的html页面内容保存到data中。你可以被注释的 print data 来查看到底返回了什么内容。
有了html页面内容,接下来就用BeautifulSoup来解析它。BeautifulSoup极大地减少了我们的工作量。我会详细在这里介绍它的使用,后面再次出现类似的解析就会从略了。soup.find_all(id=“papelist”) 将会查找html页面中所有id=“papelist”的tag,然后返回包含这些tag的list。对应 CSDN 博文页面来说,只有一处地方:
1234567891011 | <div id="papelist" class="pagelist"> <span> 236条数据 共12页</span> <strong>1</strong> <a href=http://www.mamicode.com/"/kesalin/article/list/2">2</a> <a href=http://www.mamicode.com/"/kesalin/article/list/3">3</a> <a href=http://www.mamicode.com/"/kesalin/article/list/4">4</a> <a href=http://www.mamicode.com/"/kesalin/article/list/5">5</a> <a href=http://www.mamicode.com/"/kesalin/article/list/6">...</a> <a href=http://www.mamicode.com/"/kesalin/article/list/2">下一页</a> <a href=http://www.mamicode.com/"/kesalin/article/list/12">尾页</a></div>
|
好,我们获得了papelist 的tag对象,通过这个tag对象我们能够找出尾页tag a对象,从这个tag a解析出对应的href属性,获得尾页的编号12,然后自己拼出所有page页面的访问url来,并保存在pageUrlList中返回。page页面的访问url形式示例如下:
> page 1: http://blog.csdn.net/kesalin/article/list/1
1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950 | def getArticleList(url): # 获取所有的文章的 url/title pageUrlList = getPageUrlList(url) articleListDocs = [] strPage = " > parsing page {0}" pageNum = 0 global gRetryCount for pageUrl in pageUrlList: retryCount = 0 pageNum = pageNum + 1 pageNumStr = strPage.format(pageNum) print pageNumStr while retryCount <= gRetryCount: try: retryCount = retryCount + 1 time.sleep(1.0) #访问太快会不响应 request = urllib2.Request(pageUrl, None, header) response = urllib2.urlopen(request) data = response.read().decode(‘UTF-8‘) #print data soup = BeautifulSoup(data) topArticleDocs = soup.find_all(id="article_toplist") articleDocs = soup.find_all(id="article_list") articleListDocs = articleListDocs + topArticleDocs + articleDocs break except Exception, e: print "getArticleList exception:%s, url:%s, retry count:%d" % (e, pageUrl, retryCount) pass artices = [] topTile = "[置顶]" for articleListDoc in articleListDocs: linkDocs = articleListDoc.find_all("span", "link_title") for linkDoc in linkDocs: #print linkDoc.prettify().encode(‘UTF-8‘) link = linkDoc.a url = link["href"].encode(‘UTF-8‘) title =
|