首页 > 代码库 > 获取任意网页的编码格式
获取任意网页的编码格式
如果是非定向爬虫,不是专门爬一个固定位置的信息,而是成千上万的未知网站,那就需要找到编码格式了,使用如下正则,可以正确找到,准确率99%
content=requests.get(url).content
bianma_group=re.search(‘<meta[\s\S]*?charset="?([a-zA-Z0-9\-]*)‘, respbody0, re.IGNORECASE)
if bianma_group:
print bianma_group.group(1)
获取任意网页的编码格式
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。