首页 > 代码库 > 关于字符编码的一些简单思考

关于字符编码的一些简单思考

  在上一篇提到的BOM头,实际上牵扯到文本的编码问题,BOM头是出现在windows下用文本编辑器编写文件后,按照UTF-8的格式下保存文件而我们在编辑php脚本的时候通常是用utf-8的格式保存脚本文件,在这种情况下,我们发现不了bom头的存在。可是如果我们将php的脚本文件按照gbk编码保存我们就能轻易发现bom头的存在,道理很简单

  我们先看utf-8的编码规则,utf-8采用的是动态编码,实际上是以字节为单位对unicode(通用码)做的再编码,对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。下图可以大致看出utf8的编码规则。

 


  从编码规则上,我们可以看出bom头0xEF 0xBB 0xBF 符合utf-8指向一个字符的编码规则,那么如果以gbk的编码规则来看bom头,我们再来看看,首先,我们看看gbk的编码规则:
  "GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。"(来源百度百科);


  我们选择带有BOM头的字符串看一下 <?xml version ,通过xxd,我们查看十六进制的编码规则如下efbb bf3c 3f78 6d6c 2076 6572 7369 6f6e  根据utf8的编码,先看e表示"1110",表示这个字符占3个字节,efbb bf被解析掉,在看3,二进制是"0011",符合ascii码规则,可以查到3f对应字符"<",如此下去,按照utf-8的编码规则解析了文本。

 


 

 如果按照gbk的编码规则,该是如何解释呢?根据前面的规则,efbb符合gbk解码规则,对应汉语字符"锘",再接着看 bf,在gbk的首字节范围内,而3c明显不在gbk编码的尾字节范围,如此实际上无法解析出正确的编码。

但我们已经发现了,如果统一要求我们书写的代码按照gbk的编码方式存储,将无法出现BOM头。

二、php代码存储的编码方式和代码执行输出的编码的关系

  前段提到了代码的存储方式,就是以什么样的编码方式存储,像以utf-8,GBK,UTF-16等等方式,但是代码需要执行相关操作,例如读取和输出操作,这个地方涉及到几个问题是
  1、utf8编码存储的代码读取gbk编码的输入,会按照什么样的情况解码?
  2、utf8编码存储的代码输出字符串的时候,输出的字符串是什么样的编码?

  这两个问题,在实验中发现,如果php脚本是utf8编码存储,那么它输出字符串后,所输出的字符串会是utf8编码,如果php脚本是gbk的编码存储,所输出的字符串会是gbk字符串。这一点,会说明一个问题就是。如果再php脚本中输出一个xml,他和xml申明的encoding=utf8还是gbk没有关系。这个encoding只是告诉调用者按照什么样的编码格式去解码。所以在这个地方要注意脚本存储的编码格式在和xml的encoding不一致的时候,需要做转码的工作。


三、substr在php脚本用使用的问题

  substr在php中主要用来截取字符串,如果字符串是英文,一般情况下没有问题,可以数数字符的个数,但是如果是中文,则需要非常小心,首先要判断输入的字符是什么样的编码,如果是gbk编码。汉字都是两个字节,而如果是utf8编码,汉字在3到4个字节。所以判断输入的汉字时候,会非常麻烦,如果必须要判断,可以试试下面步骤
  1、先将输入字符转成gbk格式,
  2、从开始读取字符串,判断字节是否大于0x7F,如果大于0x7F,则读取两个字节,反正读取一个字节。





关于字符编码的一些简单思考