首页 > 代码库 > 字符编码

字符编码

1.unicode: 2或4字节

  

>>> print u‘\u4e2d‘   # 4e2d ,unicode

2.utf-8 : 1到6字节 ,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节,

ASCII编码实际上可以被看成是UTF-8编码的一部分

3.unicode--------> utf-8   : u‘中文‘.encode(‘utf-8‘)

  utf-8-------->  unicode   :xxx.decode(‘utf-8‘)

 unicode--------> gbk   : u‘中文‘.encode(‘gb2312‘)

  gbk-------->  unicode :  unicode(xxx,‘gb2312‘)    

字符编码