decode 函数将字符串从某种编码转为 unicode 字符

首页 > 代码库 > decode 函数将字符串从某种编码转为 unicode 字符

decode 函数将字符串从某种编码转为 unicode 字符

2024-08-28 12:24:52 219人阅读

环境：Ubuntu, Python 2.7

基础知识

这个程序涉及到的知识点有几个，在这里列出来，不详细讲，有疑问的直接百度会有一堆的。

1.urllib2 模块的 request 对像来设置 HTTP 请求，包括抓取的 url，和伪装浏览器的代理。然后就是 urlopen 和 read 方法，都很好理解。

2.chardet 模块，用于检测网页的编码。在网页上抓取数据很容易遇到乱码的问题，为了判断网页是 gtk 编码还是 utf-8 ，所以用 chardet 的 detect 函数进行检测。没有这个模块的同学请自行下载安装，楼主默认是有的。

3. decode 函数将字符串从某种编码转为 unicode 字符，而 encode 把 unicode 字符转为指定编码格式的字符串。

4. re 模块正则表达式的应用。search 函数可以找到和正则表达式对应匹配的一项，而 replace 则是把匹配到的字符串替换。

思路分析：

我们选取的 url 是 http://www.quanben.com/xiaoshuo/0/910/59302.html，2881064151斗罗大陆的第一章。你可以查看网页的源代码，会发现只有一个 content 标签包含了所有章节的内容，所以可以用正则把 content 的标签匹配到，抓取下来。试着把这一部分内容打印出来，会发现很多
和 &nbsp，
要替换成换行符， &nbsp 是网页中的占位符，即空格，替换成空格就好。这样一章的内容就很美观的出来了。完整起见，同样用正则把标题爬下来。 # -*- coding: utf-8 -*- import urllib2 import re import chardet class Book_Spider: def __init__(self): self.pages = [] # 抓取一个章节 def GetPage(self): myUrl = "http://www.quanben.com/xiaoshuo/0/910/59302.html"; user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; windows NT)‘ headers = { ‘User-Agent‘ : user_agent } request = urllib2.Request(myUrl, headers = headers) myResponse = urllib2.urlopen(request) myPage = myResponse.read() #先检测网页的字符编码,最后统一转为 utf-8 charset = chardet.detect(myPage) charset = charset[‘encoding‘] if charset == ‘utf-8‘ or charset == ‘UTF-8‘: myPage = myPage else: myPage = myPage.decode(‘gb2312‘,‘ignore‘).encode(‘utf-8‘) unicodePage = myPage.decode("utf-8") #抓取标题 my_title = re.search(‘(.*?)

decode 函数将字符串从某种编码转为 unicode 字符

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > decode 函数将字符串从某种编码转为 unicode 字符

decode 函数将字符串从某种编码转为 unicode 字符

看完仍有疑问？有类似问题直接问程序猿