用Java实现按字节长度截取字符串的方法-myjiushizhe-ChinaUnix博客

frankmyjiushizhe.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

myjiushizhe

博客访问： 490722
博文数量： 155
博客积分： 2954
博客等级：少校
技术积分： 1000
用户组：普通用户
注册时间： 2010-01-12 22:00

文章分类

全部博文（155）

javascript（1）
zookeeper（1）
oracle（3）
工作（1）
数据库优化（3）
电脑使用（1）
apache（3）
jprofiler（2）
http（2）
maven（2）
spring（2）
IntelliJ（2）
tomcat（1）
log4j（1）
快捷键（3）
hibernate（2）
velocity（1）
xml（4）
ibatis（3）
android（31）
polish（13）
j2me（14）
asp（2）
linux（9）
webservice（6）
others（4）
english（0）
mysql（4）
音频视频（3）
javascript（2）
struts2（4）
sqlserver（3）
java（8）
jquery（2）
php（12）
未分配的博文（0）

文章存档

2014年（2）

2013年（5）

2012年（10）

2011年（33）

2010年（105）

我的朋友

zyhualov

相关博文

用Java实现按字节长度截取字符串的方法

分类： Java

2010-01-13 20:57:31

Web应用程序在浏览器中显示字符串时，由于显示长度的限制，常常需要将字符串截取后再进行显示。但目前很多流行的语言，如C#、Java内部采用的都是 Unicode 16（UCS2）编码，在这种编码中所有的字符都是两个字符，因此，如果要截取的字符串是中、英文、数字混合的，就会产生问题，如下面的字符串：

String s = "a加b等于c，如果a等1、b等于2，那么c等3";

上面的字符串既有汉字，又有英文字符和数字。如果要截取前6个字节的字符，应该是”a加b等"，但如果用substring方法截取前6个字符就成了"a 加b等于c"。产生这个问题的原因是将substring方法将双字节的汉字当成一个字节的字符（UCS2字符）处理了。要解决这个问题的方法是首先得到该字符串的UCS2编码的字节数组，如下面的代码如下：

byte[] bytes = s.getBytes("Unicode");
    由于上面生成的字节数组中前两个字节是标志位，bytes[0] = -2，bytes[1] = -1，因此，要从第三个字节开始扫描，对于一个英文或数字字符，UCS2编码的第二个字节是相应的ASCII，第一个字节是0，如a的UCS2编码是0 97，而汉字两个字节都不为0，因此，可以利于UCS2编码的这个规则来计算实际的字节数，该方法的实现代码如下：

    public static String bSubstring(String s, int length) throws Exception
    {

        byte[] bytes = s.getBytes("Unicode");
        int n = 0; // 表示当前的字节数
        int i = 2; // 要截取的字节数，从第3个字节开始
        for (; i < bytes.length && n < length; i++)
        {
            // 奇数位置，如3、5、7等，为UCS2编码中两个字节的第二个字节
            if (i % 2 == 1)
            {
                n++; // 在UCS2第二个字节时n加1
            }
            else
            {
                // 当UCS2编码的第一个字节不等于0时，该UCS2字符为汉字，一个汉字算两个字节
                if (bytes[i] != 0)
                {
                    n++;
                }
            }
        }
        // 如果i为奇数时，处理成偶数
        if (i % 2 == 1)

        {
            // 该UCS2字符是汉字时，去掉这个截一半的汉字
            if (bytes[i - 1] != 0)
                i = i - 1;
            // 该UCS2字符是字母或数字，则保留该字符
            else
                i = i + 1;
        }

        return new String(bytes, 0, i, "Unicode");
    }

    下面代码使用了bSubstring方法：

String s = "a加b等于c，如果a等1、b等于2，那么c等3";
System.out.println(bSubstring(s, 6));
    上面的代码截取的字符串是"a加b等"。

阅读(739) | 评论(0) | 转发(0) |

上一篇：urlrewriter 和 Struts2 整合

下一篇：JavaScript 中 substr 和 substring的区别

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6