首页 > 代码库 > Mooc爬虫01-request库

Mooc爬虫01-request库

1 安装

  pip install requests

2 主要的方法

  requests.request()  支撑所有的基础方法

  requests.get()      

  requests.head()

  requests.post()

  requests.put()

  requests.patch()

  requests.delete()

3 Get方法

  r = requests.get(URL)

    r是一个Response对象, 包含爬虫返回的内容

    URL的Request

  requests.get(url, params=None, **kwargs)

  基本操作方法

import requestsr = requests.get("http://www.baidu.com")print(r.status_code)

4 Response对象属性

  status_code

    HTTP请求的返回状态, 200表示成功

  text

    页面内容

  encoding

    根据header猜测的内容编码方式

  apparent_encoding

    从内容中分析出来的编码方式

  content

    HTTP相应的二进制形式

4 Requests库的异常

  ConnectionError

    网络链接错误, 例如DNS查询失败, 拒绝链接等

  HTTPError

    HTTP错误

  URLRequires

    冲过最大重定向次数

  ConnectTimeout

    链接超时异常, 仅仅是链接的时候的时间超出

  Timeout

    url请求超时, 是这个过程的时间超出

5 通用代码框架  

  通用代码框架如下

import requestsdef getHTMLText(url):    try:        r = requests.get(url, timeout=30)        r.raise_for_status()        r.encoding = r.apparent_encoding        return r.text    except:        return "产生异常"if __name__ == "__main__":    url = "http://www.python.org"    print(getHTMLText())

  

Mooc爬虫01-request库