首页 > 代码库 > python爬虫二、Urllib库的基本使用

python爬虫二、Urllib库的基本使用

什么是Urllib

  Urllib是python内置的HTTP请求库
  包括以下模块
  urllib.request 请求模块
  urllib.error 异常处理模块
  urllib.parse url解析模块
  urllib.robotparser robots.txt解析模块

 

urlopen

  关于urllib.request.urlopen参数的介绍:
  urllib.request.urlopen(url, data=http://www.mamicode.com/None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数的使用

先写一个简单的例子:

import urllib.request

response = urllib.request.urlopen(http://www.baidu.com)
print(response.read().decode(utf-8‘))

urlopen一般常用的有三个参数,它的参数如下:
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容,如果没有read(),将返回如下内容

data参数的使用

上述的例子是通过请求百度的get请求获得百度,下面使用urllib的post请求
这里通过http://httpbin.org/post网站演示(该网站可以作为练习使用urllib的一个站点使用,可以
模拟各种请求操作)。

import urllib.parse
import urllib.request

data = http://www.mamicode.com/bytes(urllib.parse.urlencode({word‘: hello‘}), encoding=utf8)
print(data)
response = urllib.request.urlopen(http://httpbin.org/post‘, data=http://www.mamicode.com/data)
print(response.read())

 

python爬虫二、Urllib库的基本使用