理解java的String对象-sinkingboat-ChinaUnix博客

沉舟sinkingboat.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

sinkingboat

博客访问： 3400255
博文数量： 530
博客积分： 13360
博客等级：上将
技术积分： 5473
用户组：普通用户
注册时间： 2006-07-13 13:32

文章分类

全部博文（530）

UML建模原理（9）
人机交互（1）
软件测试（1）
嵌入式（29）

进程与调度（3）

linux源代码分析（3）

Linux（21）
功耗（3）

功耗工具（1）

熵（0）
android（3）
网络（29）

社会网络（2）

P2P仿真（0）

P4P（1）

汇报（1）

技术学习（1）

Distributed Hash（3）

视频（10）

P2P（8）
经济（9）
商业（5）
C语言课程与作业（26）
我们需要什么样的（20）
软件工程（19）

UML（1）

工程管理（3）

软件工程评论（2）

集群（0）

系统设计思想（8）

常用技术简述（1）

面向对象思想（3）
语义网（26）

语义分析（1）

其它（2）

RDF（0）

本体（11）

信息抽取技术（1）

XML（6）
flex（159）

FLEX设计模式（1）

FLEX课件（0）

FLEX源码分析（10）

Observer（4）

cairngorm（5）

swiz（6）

parsley（27）

robotleg（1）

FLEX架构（2）

BlazeDS分析（1）

FLEX技巧（26）

FLEX界面（17）

FLEX评论（5）

FLEX控件（25）

FLEX语法（24）
社区（8）
Javascript（11）

requirejs（2）

Javascript技术和（2）

JavaScript对象和（6）
PHP（21）

语法使用指南（4）

uchome（5）
JAVA（116）

报表（6）

IM通信（1）

REST（2）

spring（1）

常见框架（7）

mybatis（2）

飞信（0）

apache（0）

lang（4）

JSP（2）

性能优化（9）

数据库（16）

调试与测试（8）

JBPM工作流（14）

WEB服务器使用（4）

JAVA语法（24）

oscache（2）

设计模式（13）
Ajax（11）

jquery（1）

DWR（6）
开源软件学习（5）

bootstrap（1）
.net2.0（5）

表示层开发（1）

定制控件（2）

.net开发小技巧（1）
技术与趋势评论（9）
未分配的博文（5）

文章存档

2017年（1）

2015年（2）

2013年（24）

2012年（20）

2011年（97）

2010年（240）

2009年（117）

2008年（12）

2007年（8）

2006年（9）

我的朋友

相关博文

理解java的String对象

分类： Java

2009-12-02 10:33:14

   要理解java中String的运作方式，必须明确一点：String是一个非可变类（immutable）。
    什么是非可变类呢？
    简单说来，非可变类的实例是不能被修改的，每个实例中包含的信息都必须在该实例创建的时候就提供出来，并且在对象的整个生存周期内固定不变。
    java为什么要把String设计为非可变类呢？
    非可变类确实有着自身的优势，如状态单一，对象简单，便于维护。其次，该类对象对象本质上是线程安全的，不要求同步。此外用户可以共享非可变对象，甚至可以共享它们的内部信息。（详见《Effective java》item 13）。String类在java中被大量运用，甚至在class文件中都有其身影，因此将其设计为简单轻便的非可变类是比较合适的。

1.创建
    String是非可变类，我们可以进一步了解String的构造方式了。创建一个Stirng对象，主要就有以下两种方式：
   String str1 = new String("abc");
   Stirng str2 = "abc";
     虽然两个语句都是返回一个String对象的引用，但是jvm对两者的处理方式是不一样的。对于第一种，jvm会马上在heap中创建一个String对象，然后将该对象的引用返回给用户。对于第二种，jvm首先会在内部维护的strings pool中通过String的 equels 方法查找是对象池中是否存放有该String对象，如果有，则返回已有的String对象给用户，而不会在heap中重新创建一个新的String对象；如果对象池中没有该String对象，jvm则在heap中创建新的String对象，将其引用返回给用户，同时将该引用添加至strings pool中。注意：使用第一种方法创建对象时，jvm是不会主动把该对象放到strings pool里面的，除非程序调用 String的intern方法。看下面的例子：
   String str1 = new String("abc"); //jvm 在堆上创建一个String对象

     //jvm 在strings pool中找不到值为“abc”的字符串，因此
     //在堆上创建一个String对象，并将该对象的引用加入至strings pool中
     //此时堆上有两个String对象
    Stirng str2 = "abc";

     if(str1 == str2){
             System.out.println("str1 == str2");
    }else{
            System.out.println("str1 != str2");
    }
     //打印结果是 str1 != str2,因为它们是堆上两个不同的对象

     String str3 = "abc";
    //此时，jvm发现strings pool中已有“abc”对象了，因为“abc”equels “abc”
    //因此直接返回str2指向的对象给str3，也就是说str2和str3是指向同一个对象的引用
     if(str2 == str3){
            System.out.println("str2 == str3");
     }else{
            System.out.println("str2 != str3");
     }
    //打印结果为 str2 == str3

   再看下面的例子：
    String str1 = new String("abc"); //jvm 在堆上创建一个String对象

    str1 = str1.intern();
    //程序显式将str1放到strings pool中，intern运行过程是这样的：首先查看strings pool
    //有没“abc”对象的引用，没有，则在堆中新建一个对象，然后将新对象的引用加入至
    //strings pool中。执行完该语句后，str1原来指向的String对象已经成为垃圾对象了，随时会
    //被GC收集。

    //此时，jvm发现strings pool中已有“abc”对象了，因为“abc”equels “abc”
   //因此直接返回str1指向的对象给str2，也就是说str2和str1引用着同一个对象，
   //此时，堆上的有效对象只有一个。
   Stirng str2 = "abc";

    if(str1 == str2){
            System.out.println("str1 == str2");
    }else{
            System.out.println("str1 != str2");
    }
     //打印结果是 str1 == str2

    为什么jvm可以这样处理String对象呢？就是因为String的非可变性。既然所引用的对象一旦创建就永不更改，那么多个引用共用一个对象时互不影响。

2.串接（Concatenation）
     java程序员应该都知道滥用String的串接操作符是会影响程序的性能的。性能问题从何而来呢？归根结底就是String类的非可变性。既然String对象都是非可变的，也就是对象一旦创建了就不能够改变其内在状态了，但是串接操作明显是要增长字符串的，也就是要改变String的内部状态，两者出现了矛盾。怎么办呢？要维护String的非可变性，只好在串接完成后新建一个String 对象来表示新产生的字符串了。也就是说，每一次执行串接操作都会导致新对象的产生，如果串接操作执行很频繁，就会导致大量对象的创建，性能问题也就随之而来了。
    为了解决这个问题，jdk为String类提供了一个可变的配套类，StringBuffer。使用StringBuffer对象，由于该类是可变的，串接时仅仅时改变了内部数据结构，而不会创建新的对象，因此性能上有很大的提高。针对单线程，jdk 5.0还提供了StringBuilder类，在单线程环境下，由于不用考虑同步问题，使用该类使性能得到进一步的提高。

3.String的长度
   我们可以使用串接操作符得到一个长度更长的字符串，那么，String对象最多能容纳多少字符呢？查看String的源代码我们可以得知类String中是使用域 count 来记录对象字符的数量，而count 的类型为 int，因此，我们可以推测最长的长度为 2^32，也就是4G。
    不过，我们在编写源代码的时候，如果使用 Sting str = "aaaa";的形式定义一个字符串，那么双引号里面的ASCII字符最多只能有 65534 个。为什么呢？因为在class文件的规范中， CONSTANT_Utf8_info表中使用一个16位的无符号整数来记录字符串的长度的，最多能表示 65536个字节，而java class 文件是使用一种变体UTF-8格式来存放字符的，null值使用两个字节来表示，因此只剩下 65536－ 2 ＝ 65534个字节。也正是变体UTF-8的原因，如果字符串中含有中文等非ASCII字符，那么双引号中字符的数量会更少（一个中文字符占用三个字节）。如果超出这个数量，在编译的时候编译器会报错。

4.substring方法导致的Java内存泄漏问题
JDK源码(JDK1.6)，String类的public String substring(int beginIndex, int endIndex)，源代码如下：
public String substring(int beginIndex, int endIndex) {
     if (beginIndex < 0) {
         throw new StringIndexOutOfBoundsException(beginIndex);
   }
    if (endIndex > count) {
        throw new StringIndexOutOfBoundsException(endIndex);
    }
if (beginIndex > endIndex) {
        throw new StringIndexOutOfBoundsException(endIndex - beginIndex);
    }
    return ((beginIndex == 0) && (endIndex == count)) ? this :
        new String(offset + beginIndex, endIndex - beginIndex, value);
}
其中new String(offset + beginIndex, endIndex - beginIndex, value); 的实现：
// Package private constructor which shares value array for speed.
String(int offset, int count, char value[]) {
       this.value = value;
   this.offset = offset;
   this.count = count;
}
注意：char[] value 数组被共享了。

测试代码
    import java.util.ArrayList;
    import java.util.List;

    public class LeakTest {
        public static void main(String...args) {
            List handler = new ArrayList();
            for(int i = 0; i < 100000; i++) {
                Huge h = new Huge();
               handler.add(h.getSubString(1, 5));
           }
       }
   }
class Huge {
       private String str = new String(new char[100000]);
       public String getSubString(int begin, int end) {
           return str.substring(begin, end);
       }
}
在我们的main函数里的循环中，每循环一次后，我们希望Huge对象被回收，且释放它占有的内存。
但实际上 private String str = new String(new char[100000]); 占有的内存并不会被释放。
因为我们通过 Huge 类的 getSubString 方法得到的 String 对象还存在(存在于handler的列表中)，
它虽然是 length 只有 4 的对象，却享有着 char[100000] 的空间。

执行此代码结果：
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

解决方案：
可以修改Huge 类的 getSubString 方法如下：
   public String getSubString(int begin, int end) {
   return new String(str.substring(begin, end));
   }
public String getSubString(int begin, int end) {
       return new String(str.substring(begin, end));
   }
只要再套一个String的构造方法即可。

参考文献
1.理解java String.
2.String类substring方法导致的Java内存泄漏问题.http://blog.csdn.net/bzwm/archive/2010/08/27/5844045.aspx

阅读(1742) | 评论(0) | 转发(1) |

上一篇：设计模式_command模式

下一篇：使用TrueZip解决ZIP的中文问题

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6