首页 > 代码库 > 爬虫一
爬虫一
初识爬虫
1 #! /usr/bin/env python 2 # encoding: utf-8 3 4 from bs4 import BeautifulSoup 5 import requests 6 7 8 response = requests.get("http://www.autohome.com.cn/news/") 9 # response.text 10 response.encoding = response.apparent_encoding # 解决爬虫乱码 11 12 soup = BeautifulSoup(response.text, features="html.parser") # 生成Soup对象 13 soup_obj = soup.find(id="auto-channel-lazyload-article") # find查找第一个符合条件的对象 14 15 li_list = soup_obj.find_all("li") # find_all查找所有符合的对象,查找出来的值在列表中 16 # print(target) 17 for i in li_list: 18 a = i.find("a") 19 if a: 20 a_attrs = a.attrs.get("href") # attrs查找属性 21 print(a_attrs) 22 a_h = a.find("h3") 23 print(a_h) 24 img = a.find("img") 25 print(img)
requests
Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。
Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。
爬虫一
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。