首页 > 代码库 > python爬虫对于gb2312
python爬虫对于gb2312
对于刚刚接触python爬虫的人,常常会碰到一个比较烦的问题,
如果网页是GB2312编码格式,我们直接decode(’GB2312‘)一般python都会报错:
GB2312不能编码该页面。
这就比较奇怪了
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
网页的charset明明是GB2312,却出错了。
事实上微软将 gb2312 和 gbk 统一映射为 gb18030,这个问题也比较无语大家可以参考:
http://powerelite.blog.163.com/blog/static/429658912014394820777/
python爬虫对于gb2312
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。