首页 > 代码库 > 弹性分布式数据集:一个支持容错的集群内存计算的抽象

弹性分布式数据集:一个支持容错的集群内存计算的抽象

注:本文章是翻译自:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

概要

    我们提出了弹性分布式数据集(Resilient Distributed Datasets,简称RDDs)的概念,这是一个分布式内存的抽象,允许编程在大规模集群

上编写出以内存计算为基础的程序,并且该模型支持容错。RDD概念的提出主要启发于这样一种现象:有两种类型的应用程序,使用现有的

计算框架并不能很好的处理。这两种应用程序就是:迭代式计算和交互式数据挖掘。在这两种计算场景下,把数据保存到内存中都能(成数量

级的)提升性能。为了高效的实现容错性RDD提供了一种形式上受限的共享内存(shared memory)。该共享内存是基于粗粒度的转换而不

是细粒度的针对共享内存的更新。但是,我们分析表明RDD可以表达出大多数的计算模型,包括最近发布的专门针对迭代式计算的计算模型(

比如Pregel),以及该类(迭代式计算框架)框架不支持的新的计算模型。我们已经在一个成为Spark的系统中实现了RDD,我们还通过一系

列的应用程序和基准测试评估了Spark。

1.简介

。。

弹性分布式数据集:一个支持容错的集群内存计算的抽象