首页 > 代码库 > spark 学习(二) RDD及共享变量

spark 学习(二) RDD及共享变量

2024-08-02 22:00:55 214人阅读

声明:本文基于spark的programming guide,并融合自己的相关理解整理而成

Spark应用程序总是包含着一个driver program(驱动程序),它执行着用户的main方法,并且执行大量的并行操作(parallel operations)在集群上.

概述

Spark最主要的抽象就是RDD(resilient distributed dataset) 弹性分布式数据集,RDD 就是分割元素的集合,他被分发在集群的各个节点上,并且能够进行并行操作.

RDD的创建有三种方式:

HDFS,HBase 或者其他任何能够提供Hadoop输入格式的数据源;
驱动程序中已存在的Scala集合;
其他的RDD的转换

RDD能够持久化到内存中以重复使用加速计算速度, RDD能够自动从失败的节点中恢复(血统设计).

Spark中的另一个抽象就是能够被用于并行计算的共享变量. 默认的情况下, Spark并行运行一个函数是作为一组tasks在不同的节点上同时计算的, 这种情况下,他是通过分发每一个变量的拷贝到每个task中的. 有时候,我们需要某些变量在tasks之间进行共享. 这里Spark支持两种共享变量:

broadcast variables, 被用于持久化变量在每个node的内存中;
accumulators, 这个变量只能够被累加,

RDD操作

操作主要包括两种,分别是transformations 和 action

transformation : 将一个已经存在的RDD中转换成一个新的RDD,所有的转换操作都是lazy执行的,即只是记下了执行的动作,只有当driver程序需要结果的时候才会进行计算.

http://spark.apache.org/docs/latest/programming-guide.html

action:一般用于对RDD中的元素进行实际的计算,然后返回相应的值,例如reduce操作,collect操作,count操作等等.这中action之后返回的就不在是RDD了

RDD基本操作的几个例子以及自己的理解:

 val conf = new SparkConf().setAppName("BasicRDDApp").setMaster("local[4]")
    //spark://host:port
    val sc = new SparkContext(conf)

    /**
     *  parallelized collections
     *  将scala的集合数据,并行化成为能够并行计算的分布式数据集
     */
    val data = http://www.mamicode.com/1 to 1000 toArray>

RDD的持久化

用法: 使用persist()或者cache()方法,其中cache()方法默认持久化到内存,persist可以自己选择持久化的层次,在shuffle操作中,spark会自动保存中间计算结果,例如reduceBykey
作用: RDD的持久化会将会使得每个节点保存相应的计算部分,以便再次使用该数据集时可以直接使用,加快计算速度
如何选择持久化层次: 如果RDDs 在MEMORY_ONLY下表现良好的话,就选这个层次,这样CPU效率最高
其次MEMORY_ONLY_SER ,其他情况http://spark.apache.org/docs/latest/programming-guide.html

共享变量

1. broadcast 变量, 只读的共享变量每个节点上都有一个拷贝, 用法

val broadcastVar = sc.broadcast("string test")

broadcastVar.value

2.accumulator 变量,做累加器用,类似与counter或者是sum

    val broadcastVar = sc.broadcast("string test")//broadcast variable is readonly

    val v = broadcastVar.value
    println(v)

    val accum = sc.accumulator(0, "My Accumulator")//value and name

    sc.parallelize(1 to 1000000).foreach(x => accum+= 1)

    println(accum.name + ":" + accum.value)

spark 学习(二) RDD及共享变量

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > spark 学习(二) RDD及共享变量

spark 学习(二) RDD及共享变量

概述

RDD操作

RDD的持久化

共享变量

看完仍有疑问？有类似问题直接问程序猿