首页 > 代码库 > Unicode 详解

Unicode 详解

一、Unicode 简介

(1) Unicode 称为 统一码 或 万国码 ,能够支持几乎所有国家的语言,在 Unicode 之前,用的都是 ASCII ,ASCII 只支持美国的语言(即只支持英文字符)
(2) UTF-8 是以 8 位字节对 Unicode 进行编码的一种格式,支持多个国家的语言
(3) 在 Python 中,字符串默认都是 ASCII 编码格式,可以通过在字符串前面加一个 ‘u‘ 以声明是 Unicode 字符串
 

二、Unicode 术语

(1) ASCII :美国标准信息交换码
(2) BMP :基本多文种平面,是 Unicode 中的一个编码区段
(3) BOM :字节顺序标记,是标识字节顺序的字符
(4) CJK : CJK 是中文(Chinese)、日文(Japanese)、韩文(Korean)三国文字的缩写,顾名思义,它能够支持这三种文字
(5) Code point :类似于 ASCII 值,代表 Unicode 字符的值
(6) Octet :八位二进制数的位组
(7) UCS :通用字符集
(8) UCS2 :UCS 的双字节编码方式
(9) UCS4 :UCS 的四字节编码方式
(10) UTF :Unicode 或 UCS 的转换格式
(11) UTF-8 :以 8 位字节对 Unicode 进行编码
(12) UTF-16 :以 16 位字节对 Unicode 进行编码
(13) Codec :定义了文本跟二进制值的转换方式,支持多种编码格式,如 ASCII 、UTF-8 、UTF-16 等
(14) 编码:编码是信息从一种格式转换为另一种格式的过程,比如计算机只认识二进制,所以要把诸如文本、音频、视频等编码成二进制来进行存储
(15) 解码:即编码的逆过程,把二进制转换成我们需要的格式显示出来

 

 

 

 

    

 

Unicode 详解