html中压缩过的数据处理

首页 > 代码库 > html中压缩过的数据处理

2024-10-13 06:08:39 217人阅读

要是爬取的内容被压缩过就

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from StringIO import StringIO
import urllib2
import gzip

# 有些网站不管客户端支不支持gzip解压缩，都会返回经过gzip压缩后的数据，比如 www.qq.com

headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"}
request = urllib2.Request("http://www.qq.com/", headers = headers)
response = urllib2.urlopen(request)
html = ""

# 判断：
# 如果响应信息里Content-Encoding 为gzip，表示响应内容通过gzip进行了压缩，则对数据进行解压缩处理
if response.info().get(‘Content-Encoding‘) == ‘gzip‘:
    # 通过StringIO 获取压缩字节流数据 存入内存
    data =http://www.mamicode.com/ StringIO(response.read())
    # 通过gzip.GzipFile 来解压数据，返回解压后的文件对象
    f = gzip.GzipFile(fileobj = data)
    # 保存解压后的字符串
    html = f.read()
# 否则直接读取响应数据
else:
    html = response.read()

# 将数据写入到磁盘文件
with open("qq.html", "w") as f:
    f.write(html)

html中压缩过的数据处理

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > html中压缩过的数据处理

html中压缩过的数据处理

看完仍有疑问？有类似问题直接问程序猿