首页 > 代码库 > python编码encode和decode
python编码encode和decode
计算机里面,编码方法有很多种,英文的一般用ascii,而中文有unicode,utf-8,gbk,utf-16等等。
unicode是 utf-8,gbk,utf-16这些的父编码,这些子编码都能转换成unicode编码,然后转化成子编码,例如utf8可以转成unicode,再转gbk,但不能直接从utf8转gbk
所以,python中就有两个方法用来解码(decode)与编码(encode),解码是子编码转unicode,编码就是unicode转子编码
1.编码
#encoding=utf-8c=u‘\u5f00\u59cb\u6267\u884c\u66f4\u65b0\u547d\u4ee4‘print c
print c.encode(‘utf8‘)print c.encode(‘gbk‘)
在这里,文件的编码方式为utf8,控制台的编码方式是utf8
变量c是一个unicode编码的字符串(需要在引号前面加u)
输出的结果为:
开始执行更新命令开始执行更新命令?????и???????
因为控制台是utf8编码,所以unicode编码和utf8编码都能识别,但是gbk就不可以了
2.解码
#encoding=utf-8a = ‘中文‘print a.decode(‘g‘)
print [a.decode(‘g‘)]
这里a为utf8编码,decode方法将utf8解码为unicode编码
输出结果:
中文[u‘\u4e2d\u6587‘]
由于控制台能识别unicode编码,所以需要把字符串放在列表里面才能看到unicode源码
#encoding=utf-8a = ‘中文‘print [a.decode(‘gbk‘)]
因为a是utf8编码的,如果将a用gbk解码,程序就会报错
UnicodeDecodeError: ‘gbk‘ codec can‘t decode bytes in position 2-3: illegal multibyte sequence
a = ‘中文‘print a.decode(‘utf-16‘)
如果用utf-16解码方法解码utf-8的字符串,程序并不会报错(可能因为它们的编码方式相似),但是返回的是乱码:
?螖
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。