首页 > 代码库 > 浅谈Spark内部运行机制

浅谈Spark内部运行机制

  1. Spark中最重要的机制有那些?

    1.RDD,2.Spark调度机制,3Shuffle过程

  2. 什么是RDD?

    可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDD

    RDD(弹性分布式数据集)首先体现数据集,RDD是对原始数据的封装,该种数据结构内部可以对数据进行逻辑分区,其次分布式体现是并行计算以及需要解决容错问题,也就是根据依赖,找到第一层RDD,最后根据RDD编号与分区编号,可以唯一确定该分区对应的块编号,就能从存储介质中提取出分区对应的数据。在就是弹性,RDD在可以不改变内部存储数据记录的前提下,去调整并行计算单元的划分结构(这个可能就是Stage)

  3. 基本概念

    (1)应用程序:

    (2)驱动程序:

    (3)Master节点

    (4)Worker节点

    (5)任务执行器

    (6)作业

    (7)阶段

    (8)任务集与任务

  4. RDD为什么要划分Stage,怎么划分stage?

  5. Spark如何管理资源?

  6. Spark内部如何调度?

  7. Shuffle是怎么个过程?

本文出自 “简答生活” 博客,转载请与作者联系!

浅谈Spark内部运行机制