首页 > 代码库 > spark 教程一 RDD和核心概念
spark 教程一 RDD和核心概念
1.RDD 的介绍
RDD 是spark的核心概念,可以将RDD是做数据库中的一张表,RDD可以保存任何类型的数据,可以用API来处理RDD及RDD中的数据,类似于Mapreduce, RDD 也有分区的概念。RDD是不可变的可以变换(Transformation)操作RDD,但是这个变换返回的是一个全新的RDD,原先的RDD保持不变
2.RDD的两种操作 Transformation 和 Action
transformation 变换,变换的返回值是一个新的RDD集合,而不是单个值调用一个变换方法,不会有任何求职计算,它只获取一个RDD作为参数,返回一个全新的RDD,变换函数包括,map、filter、flatMap、groupByKey、reduceByKey、aggregateByKay、pipe、coalesce等
action 行动,行动操作计算并返回一个新的值,当在RDD中操作一个行动函数时,会在这一刻计算全部的数据处理和查询,并返回所有的结果,行动操作包括,redeuce、collect、count、first、take、countByKey、foreach等
spark 教程一 RDD和核心概念
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。