首页 > 代码库 > Coded Character Set
Coded Character Set
ASCII -> GB2312 -> GBK
ASCII -> Unicode( Universal Multiple-octet Coded Character Set, Abbreviation:UCS)
UTF: UCS Transformation Format
UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:
例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001,用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
BOM: byte order mark
Windows 32和64, java, Net framework 都是2bytes, UTF-16编码. 类Unix下都是4bytes, UTF-32编码 |
Coded Character Set
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。