首页 > 代码库 > python笔记
python笔记
字符编码与encode、decode的问题:
用8个开关表示世界万物
ASCII : American Standard Code for Information Interchange,美国信息互换标准代码,只用了前7位,127个状态
GB2312:是对ASCII的中文扩展(前127不变,大于127的+后边另一个大于127的表示中文)两个字节表示一个汉字
GBK:包括了GB2312 的所有内容,增加了近20000个新的汉字(包括繁体字)和符号
GB18030:加了几千个新的少数民族的字,GBK的扩展
以上的汉字编码标准叫做“DBCS“(Double Byte Character Set 双字节字符集)
Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “unicode“。unicode中“字节”表示8位的物理存储单元,“字符”表示文化符号,一个汉字是一个字符,占两个字节;
byte(字节流)——>str:decode()方法;读取网页上的信息a=urllib.request.urlopen(url);a是一个“<class ‘http.client.HTTPResponse‘>”,a.read()读取网页上的内容,读取的内容是bytes字节流
python笔记
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。