首页 > 代码库 > Python写的网络爬虫程序(很简单)
Python写的网络爬虫程序(很简单)
Python写的网络爬虫程序(很简单)
这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下。不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现。
python程序如下:
import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt","w+") print line n=re.findall(r"<p>(.*?)<\/p>",urllib.urlopen(line).read(),re.M) for i in n: if len(i)!=0: i=i.replace(" ","") i= i.replace("<strong>","") i = i.replace("</strong>","") strTxt = strTxt + i strTxt = re.sub(r"<a href=http://www.mamicode.com/(.*?)>", r"", strTxt)>wangzhi.txt的内容如下:
http://sports.163.com/14/1126/22/AC0TVK4E00052UUC.html
http://sports.163.com/14/1126/22/AC0TGD4700052UUC.html
http://sports.163.com/14/1126/22/AC0TAHNK00052UUC.html
结果分析:
运行程序,有3个输出文件,分别是3个URL地址对应的网页的内容。
Python写的网络爬虫程序(很简单)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。