首页 > 代码库 > Mooc爬虫01-request库
Mooc爬虫01-request库
1 安装
pip install requests
2 主要的方法
requests.request() 支撑所有的基础方法
requests.get()
requests.head()
requests.post()
requests.put()
requests.patch()
requests.delete()
3 Get方法
r = requests.get(URL)
r是一个Response对象, 包含爬虫返回的内容
URL的Request
requests.get(url, params=None, **kwargs)
基本操作方法
import requestsr = requests.get("http://www.baidu.com")print(r.status_code)
4 Response对象属性
status_code
HTTP请求的返回状态, 200表示成功
text
页面内容
encoding
根据header猜测的内容编码方式
apparent_encoding
从内容中分析出来的编码方式
content
HTTP相应的二进制形式
4 Requests库的异常
ConnectionError
网络链接错误, 例如DNS查询失败, 拒绝链接等
HTTPError
HTTP错误
URLRequires
冲过最大重定向次数
ConnectTimeout
链接超时异常, 仅仅是链接的时候的时间超出
Timeout
url请求超时, 是这个过程的时间超出
5 通用代码框架
通用代码框架如下
import requestsdef getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "产生异常"if __name__ == "__main__": url = "http://www.python.org" print(getHTMLText())
Mooc爬虫01-request库
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。