首页 > 代码库 > RDD的理解

RDD的理解

1.RDD介绍

  技术分享

  A list of partitions ====> 一个许多分区的集合,分区中包含数据
  A function for computing each split ===> 为每个分区提供一个computing的函数
  A list of dependencies on other RDDs ===> RDD会依赖其他RDDs, 这种特性叫做:lineage(生命线);特例:第一个RDD不依赖其他RDD
  Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) Key-Value的RDD存在一个分区器,默认是Hash分区器;分区器的作用类型MR中的Partitioner,决定上一个RDD中的数据到下一个RDD的时候是在那个分区中
  Optionally, a list of preferred locations to compute each split on (e.g. block locations foran HDFS file) 数据计算本地化操作,类似MR

 

2.对应的五个方法

  技术分享

 

RDD的理解