Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3336829
  • 博文数量: 530
  • 博客积分: 13360
  • 博客等级: 上将
  • 技术积分: 5473
  • 用 户 组: 普通用户
  • 注册时间: 2006-07-13 13:32
文章分类

全部博文(530)

文章存档

2017年(1)

2015年(2)

2013年(24)

2012年(20)

2011年(97)

2010年(240)

2009年(117)

2008年(12)

2007年(8)

2006年(9)

分类: Java

2009-12-02 10:33:14

   要理解java中String的运作方式,必须明确一点:String是一个非可变类(immutable)。
    什么是非可变类呢?
    简单说来,非可变类的实例是不能被修改的,每个实例中包含的信息都必须在该实例创建的时候就提供出来,并且在对象的整个生存周期内固定不变。
    java为什么要把String设计为非可变类呢?
    非可变类确实有着自身的优势,如状态单一,对象简单,便于维护。其次,该类对象对象本质上是线程安全的,不要求同步。此外用户可以共享非可变对象,甚至可以共享它们的内部信息。(详见 《Effective java》item 13)。String类在java中被大量运用,甚至在class文件中都有其身影,因此将其设计为简单轻便的非可变类是比较合适的。

1.创建
    String是非可变类,我们可以进一步了解String的构造方式了。创建一个Stirng对象,主要就有以下两种方式:
   String str1 = new String("abc");    
   Stirng str2 = "abc"; 
     虽然两个语句都是返回一个String对象的引用,但是jvm对两者的处理方式是不一样的。对于第一种,jvm会马上在heap中创建一个String对象,然后将该对象的引用返回给用户。对于第二种,jvm首先会在内部维护的strings pool中通过String的 equels 方法查找是对象池中是否存放有该String对象,如果有,则返回已有的String对象给用户,而不会在heap中重新创建一个新的String对象;如果对象池中没有该String对象,jvm则在heap中创建新的String对象,将其引用返回给用户,同时将该引用添加至strings pool中。注意:使用第一种方法创建对象时,jvm是不会主动把该对象放到strings pool里面的,除非程序调用 String的intern方法。看下面的例子:
   String str1 = new String("abc"); //jvm 在堆上创建一个String对象   
     
     //jvm 在strings pool中找不到值为“abc”的字符串,因此   
     //在堆上创建一个String对象,并将该对象的引用加入至strings pool中   
     //此时堆上有两个String对象   
    Stirng str2 = "abc";   
     
     if(str1 == str2){   
             System.out.println("str1 == str2");   
    }else{   
            System.out.println("str1 != str2");   
    }   
     //打印结果是 str1 != str2,因为它们是堆上两个不同的对象   
    
     String str3 = "abc";   
    //此时,jvm发现strings pool中已有“abc”对象了,因为“abc”equels “abc”   
    //因此直接返回str2指向的对象给str3,也就是说str2和str3是指向同一个对象的引用   
     if(str2 == str3){   
            System.out.println("str2 == str3");   
     }else{   
            System.out.println("str2 != str3");   
     }   
    //打印结果为 str2 == str3 

   再看下面的例子:
    String str1 = new String("abc"); //jvm 在堆上创建一个String对象   
     
    str1 = str1.intern();   
    //程序显式将str1放到strings pool中,intern运行过程是这样的:首先查看strings pool   
    //有没“abc”对象的引用,没有,则在堆中新建一个对象,然后将新对象的引用加入至   
    //strings pool中。执行完该语句后,str1原来指向的String对象已经成为垃圾对象了,随时会   
    //被GC收集。   
     
    //此时,jvm发现strings pool中已有“abc”对象了,因为“abc”equels “abc”   
   //因此直接返回str1指向的对象给str2,也就是说str2和str1引用着同一个对象,   
   //此时,堆上的有效对象只有一个。   
   Stirng str2 = "abc";   
    
    if(str1 == str2){   
            System.out.println("str1 == str2");   
    }else{   
            System.out.println("str1 != str2");   
    }   
     //打印结果是 str1 == str2  

    为什么jvm可以这样处理String对象呢?就是因为String的非可变性。既然所引用的对象一旦创建就永不更改,那么多个引用共用一个对象时互不影响。


2.串接(Concatenation)
     java程序员应该都知道滥用String的串接操作符是会影响程序的性能的。性能问题从何而来呢?归根结底就是String类的非可变性。既然String对象都是非可变的,也就是对象一旦创建了就不能够改变其内在状态了,但是串接操作明显是要增长字符串的,也就是要改变String的内部状态,两者出现了矛盾。怎么办呢?要维护String的非可变性,只好在串接完成后新建一个String 对象来表示新产生的字符串了。也就是说,每一次执行串接操作都会导致新对象的产生,如果串接操作执行很频繁,就会导致大量对象的创建,性能问题也就随之而来了。
    为了解决这个问题,jdk为String类提供了一个可变的配套类,StringBuffer。使用StringBuffer对象,由于该类是可变的,串接时仅仅时改变了内部数据结构,而不会创建新的对象,因此性能上有很大的提高。针对单线程,jdk 5.0还提供了StringBuilder类,在单线程环境下,由于不用考虑同步问题,使用该类使性能得到进一步的提高。

3.String的长度
   我们可以使用串接操作符得到一个长度更长的字符串,那么,String对象最多能容纳多少字符呢?查看String的源代码我们可以得知类String中是使用域 count 来记录对象字符的数量,而count 的类型为 int,因此,我们可以推测最长的长度为 2^32,也就是4G。
    不过,我们在编写源代码的时候,如果使用 Sting str = "aaaa";的形式定义一个字符串,那么双引号里面的ASCII字符最多只能有 65534 个。为什么呢?因为在class文件的规范中, CONSTANT_Utf8_info表中使用一个16位的无符号整数来记录字符串的长度的,最多能表示 65536个字节,而java class 文件是使用一种变体UTF-8格式来存放字符的,null值使用两个字节来表示,因此只剩下 65536- 2 = 65534个字节。也正是变体UTF-8的原因,如果字符串中含有中文等非ASCII字符,那么双引号中字符的数量会更少(一个中文字符占用三个字节)。如果超出这个数量,在编译的时候编译器会报错。 

4.substring方法导致的Java内存泄漏问题
JDK源码(JDK1.6),String类的public String substring(int beginIndex, int endIndex),源代码如下:
 public String substring(int beginIndex, int endIndex) { 
     if (beginIndex < 0) { 
         throw new StringIndexOutOfBoundsException(beginIndex); 
     } 
    if (endIndex > count) { 
        throw new StringIndexOutOfBoundsException(endIndex); 
    } 
    if (beginIndex > endIndex) { 
        throw new StringIndexOutOfBoundsException(endIndex - beginIndex); 
    } 
    return ((beginIndex == 0) && (endIndex == count)) ? this : 
        new String(offset + beginIndex, endIndex - beginIndex, value); 

其中new String(offset + beginIndex, endIndex - beginIndex, value); 的实现:
  // Package private constructor which shares value array for speed. 
  String(int offset, int count, char value[]) { 
       this.value = value; 
       this.offset = offset; 
       this.count = count; 
  }
注意:char[] value 数组被共享了。

测试代码
    import java.util.ArrayList; 
    import java.util.List; 
     
    public class LeakTest { 
        public static void main(String...args) { 
            List handler = new ArrayList(); 
            for(int i = 0; i < 100000; i++) { 
                Huge h = new Huge(); 
               handler.add(h.getSubString(1, 5)); 
           } 
       } 
   } 
  class Huge { 
       private String str = new String(new char[100000]); 
       public String getSubString(int begin, int end) { 
           return str.substring(begin, end); 
       } 
  }  
在我们的main函数里的循环中,每循环一次后,我们希望Huge对象被回收,且释放它占有的内存。
但实际上 private String str = new String(new char[100000]); 占有的内存并不会被释放。
因为 我们通过 Huge 类的 getSubString 方法得到的 String 对象还存在(存在于handler的列表中),
它虽然是 length 只有 4 的对象,却享有着 char[100000] 的空间

执行此代码结果:
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

解决方案:
可以修改Huge 类的 getSubString 方法如下:
   public String getSubString(int begin, int end) { 
       return new String(str.substring(begin, end)); 
   } 
  public String getSubString(int begin, int end) {
       return new String(str.substring(begin, end));
   }
只要再套一个String的构造方法即可。

参考文献
1.理解java String.
2.String类substring方法导致的Java内存泄漏问题.http://blog.csdn.net/bzwm/archive/2010/08/27/5844045.aspx



阅读(1709) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~