首页 > 代码库 > Python学习(2)
Python学习(2)
爬取网页的部分链接
#!/usr/bin/python
#coding = utf8
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
pages = set()
def getlink(pageurl):
global pages
html = urlopen(‘http://www.ftchinese.com‘ + pageurl)
bs_data = http://www.mamicode.com/BeautifulSoup(html,‘lxml‘)
#from ipdb import set_trace
#set_trace()
for link in bs_data.find_all(‘a‘,href = http://www.mamicode.com/re.compile("^(/m/)")):
if ‘href‘ in link.attrs:
if link.attrs[‘href‘] not in pages:
#我们遇到了新页面
newpage = link.attrs[‘href‘]
print(newpage)
pages.add(newpage)
getlink(newpage)
getlink("")
Python学习(2)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。