首页 > 代码库 > spark 教程一 RDD和核心概念

spark 教程一 RDD和核心概念

1.RDD 的介绍

  RDD 是spark的核心概念,可以将RDD是做数据库中的一张表,RDD可以保存任何类型的数据,可以用API来处理RDD及RDD中的数据,类似于Mapreduce, RDD 也有分区的概念。RDD是不可变的可以变换(Transformation)操作RDD,但是这个变换返回的是一个全新的RDD,原先的RDD保持不变

2.RDD的两种操作 Transformation 和 Action

  transformation 变换,变换的返回值是一个新的RDD集合,而不是单个值调用一个变换方法,不会有任何求职计算,它只获取一个RDD作为参数,返回一个全新的RDD,变换函数包括,map、filter、flatMap、groupByKey、reduceByKey、aggregateByKay、pipe、coalesce等

  action 行动,行动操作计算并返回一个新的值,当在RDD中操作一个行动函数时,会在这一刻计算全部的数据处理和查询,并返回所有的结果,行动操作包括,redeuce、collect、count、first、take、countByKey、foreach等

 

spark 教程一 RDD和核心概念