python ==> 字符编码

首页 > 代码库 > python ==> 字符编码

2024-11-05 23:37:39 208人阅读

一：文本编辑器：

　　python 解释器的三步骤：

　　　1.python解释器启动起来，放到内存里面。

　　　2.python解释器，从硬盘读取一个文件，把文件的内容全都当成普通字符，先读到内存里面。

　　　3.python解释器可以读一行就解释一行。

二：什么是字符编码？

　　答：计算机要想工作必须通电，也就是说”电“驱使计算机干活，而”电“的特性，就是高低平。

　　　　高电平：即二进制数1. 低电平：即二进制数0

　　　　也就是说计算机只认识数字。

三：计算机编码的三个阶段。

阶段一：

　　现代计算机起源于美国，最早诞生也是基于英文考虑的”ASCII”。

　ASCII:　　1 Bytes == 8bit

　　　　　　1KB==1024 Bytes

　　　　　　1MB==1024 KB

　　　　　　1GB== 1024MB

　　　　　　1TB==1024 GB

　　　　　　1GB= 1024*1024*1024

　　　　　　8bit 可以表示为256个字符。

阶段二：

　　为了满足中文，中国人定制了GBK。

　　GBK: 以2Bytes 代表一个字符。不止中国，为了满足其他国家，

　　　　各个国家纷纷定制了自己的编码。

　　日本： Shift_Jis 　　韩国：Eus-kr

阶段三：

　　各国有各国的标准，就会有不可避免地出现冲突，结果就是，

　　在多语言混合的文本中，显示出来会有乱码。

　　于是产生了 unicode ，统一用了 2Bytes 代表一个字符。

　　它以 2**16-1 = 65535 可代表6万多个字符，因而兼容万国语言。

　　但是对于都是英文文本而言，无疑多了一杯的存储空间。

　　于是产生了 utf-8，对英文字符只用1Bytes，中文字符3Bytes。

需要强调的是：
　　unicode: 简单粗暴，所有字符都是2Bytes，
　　优点是字符-》数字的转换速度快，缺点是占用空间大。

　　utf-8 ：精准，对不同的字符用不同的长度表示。
　　优点是：节省空间。
　　缺点是：字符-》数字的转换速度慢，
　　因为每次都要计算出字符需要多长的Bytes才能够精准表示

1.内存中使用的编码是 unicode .
用空间换时间（程序都需要加载到内存才能运行，因而内存应该是尽可能的保证快）

2.硬盘中或者网络传输用 utf-8，
网路I/O延迟或磁盘I/O延迟要远大于utf-8的转换延迟，
而且 I/O 应该是尽可能的节省带宽，保证数据传输的稳定性。

用什么格式编码就要用什么格式解码。
读的过程是 unicode.
执行的过程识别代码，开辟空间，形成其他的格式编码。

字符编码的使用：
文本编辑器：
内存：用unicode 格式的二进制
　　↑ 　　　　　　 ↓　　

　　↑　　　　　　　↓
读取文件：

decode 　　　保存文件：

　　↑　　　　　　encode
　　↑ 　　　　　　 ↓
硬盘：用utf-8格式的二进制

x = ‘钟’ ：
换编码格式之后，没执行之前，并不会出现乱码。
执行后，会出现乱码报错，

1.python 2 默认的是 ASCII 字符串识别的代码：

1.str = bytes
2.‘u‘
unicode => encode(utf-8) 的结果bytes
unicode => decode(utf-8)===>unicode

2.python 3 默认文件编码的是 utf-8 字符串识别的代码： unicode / bytes

为什么用bytes？数据要想传输，一定要转成bytes。

第一步：python 解释器先执行，没问题
第二步：读取文件有问题。
（读的时候并不知道编码格式是什么，只能用默认的，
这样一来就出错了）

打印到终端
一个程序丢给另一个程序。一个内存空间到另外一个内存空间。
Windows 默认的编码是 GBK。

python ==> 字符编码

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python ==> 字符编码

python ==> 字符编码

看完仍有疑问？有类似问题直接问程序猿