各种格式ANSI,UTF8,Unicode,Unicode BigEndian的解释

首页 > 代码库 > 各种格式ANSI,UTF8,Unicode,Unicode BigEndian的解释

各种格式ANSI,UTF8,Unicode,Unicode BigEndian的解释

2024-07-16 22:33:28 224人阅读

一、ANSI编码

不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。当然对于ANSI编码而言，0x00~0x7F之间的字符，依旧是1个字节代表1个字符。这一点是ASNI编码与Unicode编码之间最大也最明显的区别。

关于ansi编码的BUG编辑

很多细心的人会发现，当新建文本文档只输入“联通”2字保存再打开时将是乱码。

当txt文档中一切字符都在 C0≤AA（第一个字节）≤DF 80≤BB（第二个字节）≤BF 这个范围时，notepad都无法确认文档的格式，没有自动依照UTF-8格式来"Display"。而"联通"就是C1 AA CD A8，刚好在上面的范围内，所以不能正常显现。

记事本默认是以ANSI编码保存文本文档的，而正是这种编码存在的bug招致了上述怪现象。假如保存时选择Unicode、Unicode(big endian)、UTF-8编码就正常了。此外，假如以ANSI编码保存含有某些特别符号的文本文档，再次打开后符号也会变成英文问号。

二、UTF8编码

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言（如英文，日文，韩文）。

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 各种格式ANSI,UTF8,Unicode,Unicode BigEndian的解释

各种格式ANSI,UTF8,Unicode,Unicode BigEndian的解释

看完仍有疑问？有类似问题直接问程序猿