Python爬虫学习1

首页 > 代码库 > Python爬虫学习1

2024-08-15 17:25:43 221人阅读

 1 #coding=utf-8 2 from urllib2 import urlopen 3 from bs4 import BeautifulSoup 4 import urllib2 5 url="http://pythonscraping.com/pages/page1.html" 6 def getTitle(url): 7     """ 8     说明一下，处理异常的过程 9     1.检查是否能打开网页 异常类型为urllib2.HTTPError10     2.检查是否服务器存在，不存在返回空，那么在read是返回AttributeError11     :param url:12     :return:13     """14     try:15 16         html=urlopen(url)17     except urllib2.HTTPError as e:18 #这里的错误是网页不存在19         print e20         return None21     try:22         bsobj=BeautifulSoup(html.read(),"html.parser")23         title=bsobj.body.h124     except AttributeError as e:25         return None26     return title27 title=getTitle(url)28 if title is None:29     print "Title could not be found"30 else:31     print title

Python爬虫学习1

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python爬虫学习1

Python爬虫学习1

看完仍有疑问？有类似问题直接问程序猿