JAVA中的UTF-16编码 -

takkymj

浏览: 124596 次
性别:
来自: 北京

最近访客更多访客>>

xiaoxiaoHer

devcang

starnc

cm20121009

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

JAVA中的UTF-16编码

博客分类：

编码

一、UTF-16编码方法

目前，UNICODE字符值的范围从U+000000到U+10FFFF(20bit)，UTF-16以两个字节为单位对其进行编码。

1 字符值在U+0000到U+FFFF(注意U+D800到U+DBFF无定义)之间的字符(也叫做BMP, Basic Multilingual Plane)，直接用两个字节表示。

2 字符值在U+10000到U+10FFFF(共有0xFFFFF个字符)之间的字符(也叫做增补字符集, supplementary characters)，需要用四个字节表示。

　　前两个字节的范围是U+D800到U+DBFF(也叫高代理项, high-surrogates range)，

　　后两个字节的范围是U+DC00到U+DFFF(也叫低代理项, low-surrogates range)。

　　转换方式如下：

　　1.1 将字符值减去0x10000，结果范围0x0000到0xFFFFF。

　　1.2 将结果的高10bit与0xD800做逻辑或运算，低10bit与0xDC00做逻辑或运算，

　　1.3 将两部分组合起来就是该字符值的UTF-16编码。

3 根据存储顺序的不同，UTF-16分为UTF-16LE和UTF-16BE，Windows和Linux一般使用UTF-16LE，而苹果操作系统使用UTF-16BE。

二、JAVA中的UTF-16

0 在JDK1.5之后JAVA才开始支持增补字符集，由JSR 204(Unicode Supplementary Character Support)实现。

1 JAVA中使用char(两个字节)作为表示字符的单位。因此，JAVA中单个char是无法表示增补字符的，而且位于U+D800到U+DBFF和U+DC00到U+DFFF的char被视为无定义字符。

2 在JAVA平台中，char[]、String、StringBuilder和StringBuffer类中采用了UTF-16编码，BMP字符用一个char表示，增补字符使用一对char表示。

3 JAVA使用代码点(Unicode code pointer)这个概念来表示范围在U+0000与U+10FFFF之间的字符值，代码单元(Unicode code unit)表示用于作为UTF-16编码的代码单元的 16位char值。因此，在Character类的API中，可以看到很多包含codePoint的方法。

4 String类中有关方法的分析

4.1 在String中，索引值指的是代码单元，所以增补字符在String中占两个位置。

4.2 int length()方法返回的是代码单元的数量，如果字符串中含有增补字符，该方法返回的值并非实际的字符数。

4.3 char charAt(int index)方法直接返回索引出的char值，不管该char是否为增补字符代理项。

4.4 int codePointAt(int index)方法，这个方法实际上是调用Character.codePointAtImpl()方法实现，源码如下

    static int codePointAtImpl(char[] a, int index, int limit) {    char c1 = a[index++];    if (isHighSurrogate(c1)) {        if (index < limit) {            char c2 = a[index];            if (isLowSurrogate(c2)) {                return toCodePoint(c1, c2);            }        }    }    return c1;    }　　所以，当index和index+1均小于length()，且index的char在高代理范围内，就返回增补字符的代码点，否则返回index的char值。

4.5 int codePointBefore(int index)，实际上调用Character.codePointBeforeImpl()方法。

　　static int codePointBeforeImpl(char[] a, int index, int start) {        char c2 = a[--index];        if (isLowSurrogate(c2)) {            if (index > start) {                char c1 = a[--index];                if (isHighSurrogate(c1)) {                    return toCodePoint(c1, c2);                }            }        }        return c2;    }　　所以，当index-1和index-2均非负，且index-2的char在高代理范围内，index-1的char在低代理范围内，则返回增补字符的代码点，否则返回index-1的char值。

4.6 int codePointCount(int beginIndex, int endIndex)，调用Character.codePointCountImpl()

    static int codePointCountImpl(char[] a, int offset, int count) {    int endIndex = offset + count;    int n = 0;    for (int i = offset; i < endIndex; ) {        n++;        if (isHighSurrogate(a[i++])) {        if (i < endIndex && isLowSurrogate(a[i])) {            i++;        }        }    }    return n;    }　　所以，该方法可以真正计算出字符串中的字符数量。

4.7 offsetByCodePoints(int index, int codePointOffset) 这个方法主要是计算从index开始，接下来第codePointOffset个代码点的下标。

4.8 int indexOf(int ch)，其他相关方法，如lastIndexOf()等，原理类似。

　　如果ch的大小在0x0000到0xFFFF之间时，返回值是第一次满足charAt(k) == ch时的k值

　　如果ch的大小超过0xFFFF，返回值是第一次满足codePointAt(k) == ch的k值

　　如果都不满足，返回-1

关于以上这些函数的用法，developWorks上有篇文章有详细的解释：http://www.ibm.com/developerworks/cn/java/j-unicode/

相关资料：

unicode中文范围http://www.iteye.com/topic/558050

维基百科UTF-16词条http://zh.wikipedia.org/wiki/UTF-16

分享到：

Java应用中的编码问题 | 解析Java中的char (Java--Unicode--UTF-16) ...

2011-09-15 17:12
浏览 1380
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

JAVA中的UTF-16编码

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

JAVA中的UTF-16编码

评论

发表评论

相关推荐

Java应用中的编码问题

解析Java中的char (Java--Unicode--UTF-16)

URL传参中文乱码

servlet,page指令,meta三者的Content-Type的区别与联系

HTML表单Form中的get和post方法

关于unicode与utf-8

Jsp页面中的字符编码方式与乱码解决方案

什么是字符集?什么是编码?

最近访客更多访客>>