首页 > 代码库 > 垃圾收集器

垃圾收集器

垃圾收集器与内存分配策略

概述

垃圾收集器(Garbage Collection,GC)需要解决的三个问题:

  • 哪些内存需要回收?
  • 什么时候回收?
  • 如何回收?

前面介绍了Java内存运行时区域的各个部分,其中程序计数器、虚拟机栈和本地方法栈三个区域随线程而生,随线程而灭;栈中的栈帧随着方法的进入和退出而有条不紊地执行着出栈和入栈操作。因此这几个区域的内存分配和回收都具备确定性,不需要过多考虑回收的问题。而Java堆和方法区则不一样,是线程共享区域,没有确定的销毁时间,所以垃圾收集器所关注的就是这部分内存。

判断对象是否存活

在堆里面存放着Java世界中几乎所有的对象实例,垃圾收集器在对堆进行回收前,第一件事就是要确定这些对象之中哪些还“存活”着,哪些已经“死去”(不可能再被任何途径使用的对象)。

引用计数算法(Reference Counting)

给对象一个引用计数器,每当有一个地方引用它时,计数器就加1;当引用失效时,计数器就减1;任何时候计数器为0的对象就是不可能再被使用的。这就是引用技术算法。
虽然引用计数算法(Reference Counting)的实现很简单,判定效率也高,但是在主流的Java虚拟机里面没有选用引用计数算法来管理内存,其中最主要的原因是它很难解决对象之间相互循环引用的问题。请看如下代码:

/**
 * testGC()方法执行后,objA和objB会不会被GC呢? 
 */
public class ReferenceCountingGC {

    public Object instance = null;

    private static final int _1MB = 1024 * 1024;

    /**
     * 这个成员属性的唯一意义就是占点内存,以便在能在GC日志中看清楚是否有回收过
     */
    private byte[] bigSize = new byte[2 * _1MB];

    public static void testGC() {
        ReferenceCountingGC objA = new ReferenceCountingGC();
        ReferenceCountingGC objB = new ReferenceCountingGC();
        objA.instance = objB;
        objB.instance = objA;

        objA = null;
        objB = null;

        // 假设在这行发生GC,objA和objB是否能被回收?
        System.gc();
    }
}

这段代码很容易看懂,就是objA对象和objB对象互相引用,所以它们的引用计数不为0,可是实际上它们已经不可能再被访问,于是引用计数算法无法通知垃圾收集器回收它们。

可达性分析算法(Reachability Analysis)

在主流的商用程序语言(Java、C#)的主流实现中,都是通过可达性分析(Reachability Analysis)来判定对象是否存活的。这个算法的基本思路就是通过一系列的称为“GC Roots”的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径称为引用链(Reference Chain),当一个对象到GC Roots没有任何引用链相连(从GC Roots到这个对象不可达)时,则证明此对象是不可用的。如下图所示,对象object5、object6和object7虽然互相有关联,但是它们到GC Roots是不可达的,所以会被判定为可回收对象。
技术分享

在Java语言中,可作为GC Rootss的对象包括下面几种:

  • 虚拟机栈(栈帧中的本地变量表)中引用的对象。
  • 方法区中类静态属性引用的对象
  • 方法区中常量引用的对象
  • 本地方法中JNI(即一般说的Native方法)引用的对象

引用

在JDK1.2之后,Java将引用分为强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Weak Reference)、虚引用(Phantom Reference)4种,这4种引用强度依次逐渐减弱。

强引用:强引用就是指在程序代码中普遍存在的,类似“Object obj = new Object()”这类的引用,只要强引用还在,垃圾收集器就永远不会回收。
软引用:软引用是用来描述一些还有用但并非必需的对象。对于软引用关联着的对象,在系统将要发生内存溢出异常之前,将会把这些对象列进回收范围之中进行第二次回收。如果这次回收还没有足够的内存,才会抛出内存溢出异常。在JDK1.2之后,提供了SoftReference类实现软引用。
弱引用:弱引用也是用来描述非必需对象的,但是强度比软引用更弱一点,被弱引用关联的对象只能生存到下一次垃圾收集发生之前。当垃圾收集器工作时,无论当前内存是否足够,都会回收掉只被弱引用关联的对象。在JDK1.2之后,提供了WeakReference类来实现弱引用。
虚引用:虚引用也称幽灵引用或幻影引用,它是最弱的一种引用关系。一个对象是否有虚引用的存在,完全不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例。为一个对象设置虚引用的唯一目的就是能在这个对象被收集器回收时受到一个系统通知。在JDK1.2之后,提供了PhantomReference类来实现虚引用。

回收方法区

方法区的垃圾收集主要回收两部分内容:废弃常量和无用的类。回收废弃常量与回收Java堆中的对象非常相似。加入一个字符串“abc”已经进入了常量池中,但是当前系统没有任何一个String对象引用常量池中的“abc”常量,也没有其他地方引用了这个字面量,如果这时发生了垃圾收集,这个“abc”就会被清理。常量池中其它类(接口)、方法、字段的符号引用也与此类似。

无用的类需要满足下列三个条件:

  • 该类所有的实例都已经被回收。
  • 加载该类的ClassLoader已经被回收。
  • 该类对应的java.lang.Class对象没有在任何地方被引用,无法再任何地方通过反射访问该类的方法。

垃圾收集算法

标记-清除算法(Mark-Sweep)

最基础的收集算法是“标记-清除”(Mark-Sweep)算法,如同它的名字一样,算法分为“标记”和“清除”两个阶段:首先标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象。之所以它是最基础的收集算法,是因为后续的收集算法都是基于这种思路并对其不足进行改进而得到的。它的主要不足有两个:
一个是效率问题,标记和清除效率都不高;
另一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多了可能会导致以后再程序运行过程中需要分配较大对象时,无法找到足够的连续内存而不得不提前触发一次垃圾收集动作。
技术分享

复制算法(Copying)

复制算法是先将可用内存按容量划分为大小相等的两块,每次只是用其中的一块。当这一块内存用完了,就将还存活着的对象复制到另外一块上面去,然后再把已使用过的内存空间一次清理掉。这样实现简单,运行高效。不过代价是内存缩小为原来的一半,代价高。
技术分享
现在的商业虚拟机都采用这种收集算法来回收新生代,IBM公司的专门研究表明,新生代的对象98%是“朝生夕死”的,所以并不需要按照1:1的比例来划分内存空间,而是将内存分为一块较大的Eden空间和两块较小的Survivor空间,每次使用Eden和其中一块Survivor。当回收时,将Eden和Survivor中还存活的对象一次性地复制到另外一块Survivor空间上,最后清理掉Eden和刚才用过的Survivor空间。HotSpot虚拟机默认Eden和Survivor的大小比例是8:1。我们没有办法保证每次回收都只有不多余10%的对象存活,当Survivor空间不够用时,需要依赖其它内存(这里指老年代)进行分配担保(Handle Promotion)。

标记-整理算法(Mark Compact)

根据老年代的特点,有人提出了另一种“标记-整理”(Mark Compact)算法,标记过程仍然与“标记-清除”算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活对象都向一端移动,然后直接清理掉端边界以外的内存,“标记-整理”算法示意图如图3-4所示。
技术分享

分代收集算法(Generational Collection)

当前商业虚拟机的垃圾收集都采用“分代收集”(Generational Collection)算法,这种算法并没有什么新的思想,只是根据对象存活周期的不同将内存划分为几块。一般是把Java堆分为新生代和老年代,这样就可以根据各个年代的特点采用最适当的手机算法。在新生代中,每次垃圾收集时都发现有大批的对象死去,只有少量存活,那就选用复制算法。而老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用“标记-清除”或者“标记-整理”算法来进行回收。

HotSpot的算法实现

枚举根节点

在可达性分析中,可作为GC Roots的节点主要在全局性的引用(例如常量或静态属性)与执行上下文(例如栈帧中的本地变量表)中,现在很多应用仅仅方法区就有数百兆,如果要逐个检查这里面的引用,必然会消耗很多时间。
另外一个问题是,在进行可达性分析的时候,必定需要暂时停顿所有Java执行线程(Stop The World)。

由于目前主流的虚拟机使用的都是准确式GC,所以当执行系统停顿下来后,并不需要一个不漏地检查完所有执行上下文和全局引用位置,虚拟机应当是有办法直接得知哪些地方存放着对象引用。在HotSpot虚拟机当中,是使用一组称为OopMap的数据结构来达到这个目的的,在类加载完成的时候,HotSpot就把对象内存什么偏移量上是什么类型的数据计算出来,在JIT编译过程中,也会在特定的位置记录下栈和寄存器中哪些位置是引用。这样,GC在扫描时就可以直接得知这些信息了。

安全点

在OopMap协助下,HotSpot可以快速且准确地完成GC Roots枚举,但一个很现实的问题随之而来:OopMap内容变化的指令非常多,如果为每一条指令都生成对应的OopMap,那将会需要大量的额外空间,这样GC的空间成本将会变得很高。
前面已经提到,只是在“特定的位置”记录这些信息,这些位置称为安全点(Safapoint),即程序执行时并非在所有地方都能停顿下来开始GC,只有在到达安全电视才能暂停。
对于如何在GC发生时让所有线程都“跑”到最近的安全点再停顿下来,这里有两种方案:抢先式中断(Preemptive Suspension)和主动式中断(Voluntary Suspension)。
抢先式中断是在GC发生时,首先把所有线程全部中断,如果发现有线程中断的地方不在安全点上,就恢复线程,让它“跑”到安全点上。
主动式中断是当GC需要中断线程的时候,不直接对线程操作,仅仅简单地设置一个标志,各个线程执行时主动轮询这个标志,发现中断标志为真时就自己中断挂起。

安全区域

Safapoint机制保证了程序执行的时候,但是,程序“不执行”的时候呢?例如线程处于Sleep状态或者Blocked状态,这时候线程无法“走”到安全的地方挂起,对于这种情况,就需要安全区域(Safa Region)来解决。
安全区域是指在一段代码片段之中,引用关系不会发生变化。在这个地方任意地方发生GC都是安全的。

垃圾收集器

技术分享

Serial收集器

这个收集器是一个单线程收集器,但它的“单线程”的意义并不仅仅说明它只会使用一个CPU或一条收集线程去完成垃圾收集工作,更重要的是它在进行垃圾收集时,必须暂停其它所有线程,直到它工作结束。Serial是一个新生代收集器。
技术分享

优点:简单高效。
缺点:“Stop The World”停顿。

ParNew收集器

ParNew是Serial收集器的多线程版,也是一个新生代收集器,除了使用多条线程进行垃圾收集之外,其余行为都与Serial收集器完全一样。
技术分享

Parallel Scavenge收集器

Parallel Scavenge收集器是一个新生代收集器,也是使用复制算法的收集器,又是并行的多线程收集器。
这个收集器的特点是与其它收集器的关注点不同,其它收集器关注点是尽可能缩短垃圾收集时用户线程的停顿时间,而Parallel Scavenge收集器的目标则是达到一个可控制的吞吐量(Throughput)。所谓吞吐量就是CPU用于运行用户代码的时间与CPU总消耗时间的比值,即吞吐量=运行用户代码时间/(运行用户代码时间+垃圾收集时间)。
新生代选择此选择器,老年代只能选择Parallel Old收集器和Serial Old收集器与其搭配。

Serial Old收集器

Serial Old收集器是Serial收集器的老年代版本,同样是一个单线程收集器,使用“标记-整理”算法。在Server模式下,主要有两大用途:一种用途是在JDK1.5之前版本中与Parallel Scavenge收集器搭配使用,另一种用途就是作为CMS收集器的后备预案。

Parallel Old收集器

是Parallel Scavenge收集器的老年代版本,使用多线程和“标记-整理”算法。

CMS收集器

CMS(Concurrent Mark Sweep)收集器是一种以获取最短回收停顿时间为目标的收集器。
从名字上就可以看出,CMS收集器是基于“标记-清除”算法实现的,它的运作过程相对于前面几种收集器来说更复杂一些,整个过程分为4个步骤:

  • 初始标记(CMS initial mark)
  • 并发标记(CMS concurrent mark)
  • 重新标记(CMS remark)
  • 并发清除(CMS concurrent sweep)
    其中初始标记、重新标记这两个步骤仍然需要“Stop The World”。初始标记仅仅是标记一下GC Roots能直接关联到的对象,速度很快,并发标记阶段就是进行GC Roots Tracing的过程,而重新标记阶段则是为了修正并发标记期间因用户程序继续运作而导致标记产生变动的那一部分对象的标记记录,这个阶段的停顿时间一般会比初始标记阶段长一点,但远比并发标记的时间短。整个过程中耗时最长的并发标记和并发清除过程收集器线程都可以和用户线程一起工作。
    技术分享

优点:并发收集、低停顿。
缺点:

  1. 对CPU资源非常敏感。它虽然不会导致用户线程停顿,但是会占用一部分线程(或者说CPU资源)而导致应用程序变慢,总吞吐量降低。
  2. CMS收集器无法处理浮动垃圾(Floating Garbage),可能出现“Concurrent Mode Failure”失败而导致另一次Full GC的产生。由于CMS并发清理阶段用户线程还在运行着,伴随程序运行自然就还会有新的垃圾不断产生,这一部分垃圾出现在标记过程之后,CMS无法再当次收集中处理它们,只好等下一次GC时再清理。
  3. “标记-清除”算法会差生大量空间碎片。

G1收集器

特点:

  • 并行与并发:G1能够充分利用多CPU、多核环境下的硬件优势,使用多个CPU来缩短Stop-The-World停顿的时间。
  • 分代收集。
  • 空间整合:采用“标记-整理”算法。
  • 可预测的停顿:可以让使用者明确指定在一个长度为M毫秒的时间片段内,消耗在垃圾收集上的时间不得超过N毫秒。

在G1之前的其它收集器进行收集的范围都是正规新生代或者老年代,而G1不再是这样。使用G1收集器时,Java堆的内存布局就与其它收集器有很大区别,它将正规Java堆划分为多个大小相等的独立区域(Region),虽然还保留新生代和老年代的概念,但新生代和老年代不再是物理隔离了,它们都是一部分Region(不需要连续)的集合。

运行步骤:

  • 初始标记(Initial Marking)
  • 并发标记(Concurrent Marking)
  • 最终标记(Final Marking)
  • 筛选回收(Live Data Counting and Evacuation)

初始标记阶段仅仅只是标记一下GC Roots能直接关联的对象,并且修改TAMS(Next Top at Mark Start)的值,让下一阶段用户程序并发运行时,能在正确可用的Region中创建新对象,这阶段需要停顿线程,但时间很短。
并发标记阶段是从GC Roots开始对堆中对象进行可达性分析,找出存活的对象,这阶段耗时较长,但可与用户线程并发执行。
最终标记阶段则是为了修正在并发标记期间因用户线程继续运作而导致标记产生变动的那一部分记录,虚拟机将这段时间对象变化记录在线程Remembered Set中,这阶段需要停顿线程,但可并行执行。
筛选回收阶段首先对各个Region的回收价值和成本进行排序,根据用户所期望的GC停顿时间来指定回收计划。
技术分享

<script type="text/javascript"> $(function () { $(‘pre.prettyprint code‘).each(function () { var lines = $(this).text().split(‘\n‘).length; var $numbering = $(‘
    ‘).addClass(‘pre-numbering‘).hide(); $(this).addClass(‘has-numbering‘).parent().append($numbering); for (i = 1; i <= lines; i++) { $numbering.append($(‘
  • ‘).text(i)); }; $numbering.fadeIn(1700); }); }); </script>

    垃圾收集器