首页 > 代码库 > Unicode转义(\uXXXX)的编码和解码【转】
Unicode转义(\uXXXX)的编码和解码【转】
在涉及Web前端开发时, 有时会遇到\uXXXX
格式表示的字符, 其中XXXX
是16进制数字的字符串表示形式, 在js中这个叫Unicode转义字符, 和\n
\r
同属于转义字符. 在其他语言中也有类似的, 可能还有其它变形的格式.
多数时候遇到需要解码的情况多点, 所以会先介绍解码decode, 后介绍编码encode.
下文会提供Javascript C# Java三种语言下不同方法的实现和简单说明, 会涉及到正则和位运算的典型用法.
Javascript的实现
解码的实现
123 |
|
unescape
是用来处理%uXXXX
这样格式的字符串, 将\uXXXX
替换成%uXXXX
后unescape
就可以处理了.
编码的实现
12345 |
|
和解码中相对应, 使用escape
编码, 然后将%uXXXX
替换为\uXXXX
, 因为escape
还可能把一些字符编码成%XX
的格式, 所以这些字符还需要使用unescape
还原回来.
escape
编码结果%uXXXX
中的XXXX
是大写的, 所以后面的replace
只处理大写的A-F
.
另一种编码的实现
不使用正则和escape
1234567891011121314 |
|
遍历字符串中的字符, 那些charCode
大于256的会转换成16进制字符串c.toString(16)
, 如果不足4位则左边补0pad.substr(0, 4 - c.length)
. 结尾将遍历的结果合并成字符串返回.
C#的实现
解码的实现
1234567891011121314 |
|
正则和js中的一样, 将XXXX
转换以16进制System.Globalization.NumberStyles.HexNumber
解析为short
类型, 然后直接(char)c
就能转换成对应的字符, "" + (char)c
用于转换成字符串类型返回.
由于正则中也有\uXXXX
, 所以需要写成\\uXXXX
来表示匹配字符串\uXXXX
, 而不是具体的字符.
上面使用到了Lambda, 需要至少dotnet 4的SDK才能编译通过, 可以在dotnet 2下运行.
编码的实现
123456 |
|
和C#的解码实现正好相反, 0-255之外的字符, 从char
转换成short
, 然后string.Format
以16进制, 至少输出4位.
Java的实现
解码的实现
和C#相似的, 使用正则
123456789101112 |
|
Java语言没有内嵌正则语法, 也没有类似C#的@"\u1234"
原始形式字符串的语法, 所以要表示正则中匹配\
, 就需要\\\\
, 其中2个是用于Java中字符转义, 2个是正则中的字符转义.
Java语言中没有设计函数或者委托的语法, 所以它的正则库提供的是find
appendReplacement
appendTail
这些方法的组合, 等价于js和C#中的replace
.
这里使用StringBuffer
类型是由于appendReplacement
只接受这个类型, StringBuffer
有线程安全的额外操作, 所以性能差一点. 也许第三方的正则库能把API设计的更好用点.
Integer.parseInt(m.group(1), 16)
用于解析为int
类型, 之后再(char)
, 以及Character.toString
转换成字符串.
解码的另一种实现
因为StringBuffer
的原因, 不使用正则的实现
1234567891011121314151617181920212223242526 |
|
手工做就是麻烦很多, 代码中也一坨的符号.
遍历所有字符chars
, 检测到\u
这样的字符串, 检测后续的4个字符是否是16进制数字的字符表示. 因为Character.isDigit
会把一些其它语系的数字也算进来, 所以保险的做法‘0‘ <= ch && ch <= ‘9‘
.
Character.digit
会把0-9
返回为int
类型的0-9, 第2个参数是16时会把a-f
返回为int
类型的10-15.
剩下的就是用|=
把各个部分的数字合并到一起, 转换成char类型. 还有一些调整遍历位置等.
编码的实现
考虑到Java正则的杯具, 还是继续手工来吧, 相对解码来说代码少点.
123456789101112131415 |
|
对应于上文Java编码的实现正好是反向的实现, 依旧遍历字符, 遇到大于256的字符, 用位运算提取出4部分并使用Character.forDigit
转换成16进制数对应的字符.
剩下就是sb.toString()
返回了.
总结
- 编码从逻辑上比解码简单点.
- 对付字符串, js还是最顺手的, 也方便测试.
- 位运算的性能很高.
- Java的正则库设计的很不方便, 可以考虑第三方.
- Java的语法设计现在看来呆板, 落后, 也没有js那种灵活.
- 上文Java的非正则实现可以写成等价的C#代码.
转自:
http://netwjx.github.io/blog/2012/07/07/encode-and-decode-unicode-escape-string/
Unicode转义(\uXXXX)的编码和解码【转】