python爬虫二、Urllib库的基本使用

首页 > 代码库 > python爬虫二、Urllib库的基本使用

python爬虫二、Urllib库的基本使用

2024-10-18 12:22:39 214人阅读

什么是Urllib

　　Urllib是python内置的HTTP请求库
　　包括以下模块
　　urllib.request 请求模块
　　urllib.error 异常处理模块
　　urllib.parse url解析模块
　　urllib.robotparser robots.txt解析模块

urlopen

　　关于urllib.request.urlopen参数的介绍：
　　urllib.request.urlopen(url, data=http://www.mamicode.com/None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数的使用

先写一个简单的例子：

import urllib.request

response = urllib.request.urlopen(‘http://www.baidu.com‘)
print(response.read().decode(‘utf-8‘))

urlopen一般常用的有三个参数，它的参数如下：
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容，如果没有read()，将返回如下内容

data参数的使用

上述的例子是通过请求百度的get请求获得百度，下面使用urllib的post请求
这里通过http://httpbin.org/post网站演示（该网站可以作为练习使用urllib的一个站点使用，可以
模拟各种请求操作）。

import urllib.parse
import urllib.request

data = http://www.mamicode.com/bytes(urllib.parse.urlencode({‘word‘: ‘hello‘}), encoding=‘utf8‘)
print(data)
response = urllib.request.urlopen(‘http://httpbin.org/post‘, data=http://www.mamicode.com/data)
print(response.read())

python爬虫二、Urllib库的基本使用

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python爬虫二、Urllib库的基本使用