Python写的网络爬虫程序（很简单）

首页 > 代码库 > Python写的网络爬虫程序（很简单）

Python写的网络爬虫程序（很简单）

2024-08-04 21:32:35 217人阅读

Python写的网络爬虫程序（很简单）

这是我的一位同学传给我的一个小的网页爬虫程序，觉得挺有意思的，和大家分享一下。不过有一点需要注意，要用python2.3，如果用python3.4会有些问题出现。

python程序如下：

import re,urllib
strTxt=""
x=1
ff=open("wangzhi.txt","r")

for line in ff.readlines():
	f=open(str(x)+".txt","w+")
	print line
	n=re.findall(r"<p>(.*?)<\/p>",urllib.urlopen(line).read(),re.M)
	for i in n:
		if len(i)!=0:
			i=i.replace(" ","")
			i= i.replace("<strong>","")
                        i = i.replace("</strong>","")
                        strTxt = strTxt + i
                        strTxt = re.sub(r"<a href=http://www.mamicode.com/(.*?)>", r"", strTxt)>

wangzhi.txt的内容如下：http://sports.163.com/14/1126/22/AC0TVK4E00052UUC.html
http://sports.163.com/14/1126/22/AC0TGD4700052UUC.html
http://sports.163.com/14/1126/22/AC0TAHNK00052UUC.html

结果分析：
运行程序，有3个输出文件，分别是3个URL地址对应的网页的内容。
Python写的网络爬虫程序（很简单）

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python写的网络爬虫程序（很简单）

Python写的网络爬虫程序（很简单）

看完仍有疑问？有类似问题直接问程序猿