编码相关

首页 > 代码库 > 编码相关

2024-09-16 18:35:15 214人阅读

这个问题的引出是因为我发现java中基本数据类型char是占两个字节的，而c语言中char是占用一个字节。要知道编码中文字符的时候往往是2-4个字节，不同编码方式下也会有不同。那么问题来了，java中用的什么编码方式存字符呢？如果是笔画特别多的中文字符如何放到2个字节中？

编码历史

GBK2312是较早出的中文的编码方式，后来GBK收录了GBK2312同时又增加了一些中文字库。而UTF-8是多语言的编码方式，不仅针对中文具有更好的通用性。unicode是UTF之前就提出的，他是对全球所有语言进行统一编码的规范，收录了所有的字符，不过编码空间利用率低。

GBK

GBK编码是1-2个字节，英文是1个字节，中文是2个字节，全角的英文是2个字节。

UTF-8

UTF-8编码是1或3-4个字节，英文是1个字节，中文大都是3个字节，少数是4个字节。

unicode

unicode是很多系统默认文件使用的编码方式，他一般要占用4个字节，英文也是4个字节，大多数中文也是4个字节。如果是及其偏僻的中文就要占6个字节，这样的中文是GBK都没有收录的。

下面我们进行一个测试看看几种编码的占用字节数：

 1 public static void main(String[] args) throws UnsupportedEncodingException {
 2         String str="a";
 3         String str2="我";
 4         String str3="??";//这是个很生僻的字，浏览器都没解析出来...
 5         print(str);
 6         System.out.println("-----");
 7         print(str2);
 8         System.out.println("-----");
 9         print(str3);
10     }
11     public static void print(String s) throws UnsupportedEncodingException{
12         System.out.println("default:"+s.getBytes().length);
13         System.out.println("utf-8  :"+s.getBytes("utf-8").length);
14         System.out.println("gbk    :"+s.getBytes("gbk").length);
15         System.out.println("unicode:"+s.getBytes("unicode").length);
16     }

打印

default:1
utf-8  :1
gbk    :1
unicode:4
-----
default:3
utf-8  :3
gbk    :2
unicode:4
-----
default:4
utf-8  :4
gbk    :1
unicode:6

小结： utf-8 gbk中英文都是1字节，unicode是4个字节。gbk中汉字是2字节，对于生僻字gbk中没有收录，因而强行解码是?，即一个字节。utf-8汉字是3-4个字节生僻的字是4个字节。unicode汉字一般是4个字节，生僻字是6个字节。

延伸： java中char是俩字节因而char a="??"; 会报错，这个字不是合法的char，char内部的编码方式（网上说是utf16）是只有2字节以内的部分，超过2字节的自动不能赋值。

编码相关

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 编码相关

编码相关

编码历史

GBK

UTF-8

unicode

看完仍有疑问？有类似问题直接问程序猿