首页 > 代码库 > python爬取糗百第一页的笑话
python爬取糗百第一页的笑话
自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。
BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。
下面是临时的代码,后续还会继续完善。
1 # coding=utf-8 2 import requests 3 from bs4 import BeautifulSoup 4 5 page = 1 6 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) 7 try: 8 res=requests.get(url) 9 # print res.text # 如果请求成功,下载的网页就作为一个字符串,保存在相应的text变量中,这就是为什么用res.text。 10 except Exception as e: 11 print ‘打开网页出现异常:‘,e 12 13 try: 14 soup=BeautifulSoup(res.text,‘html.parser‘) 15 elms=soup.select(‘.content‘) #这里产生一个列表 16 for elm in elms: 17 print elm.text 18 except Exception as e: 19 print ‘解析出现异常:‘,e
python爬取糗百第一页的笑话
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。