首页 > 代码库 > 浅谈Spark内部运行机制
浅谈Spark内部运行机制
Spark中最重要的机制有那些?
1.RDD,2.Spark调度机制,3Shuffle过程
什么是RDD?
可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDD
RDD(弹性分布式数据集)首先体现数据集,RDD是对原始数据的封装,该种数据结构内部可以对数据进行逻辑分区,其次分布式体现是并行计算以及需要解决容错问题,也就是根据依赖,找到第一层RDD,最后根据RDD编号与分区编号,可以唯一确定该分区对应的块编号,就能从存储介质中提取出分区对应的数据。在就是弹性,RDD在可以不改变内部存储数据记录的前提下,去调整并行计算单元的划分结构(这个可能就是Stage)
基本概念
(1)应用程序:
(2)驱动程序:
(3)Master节点
(4)Worker节点
(5)任务执行器
(6)作业
(7)阶段
(8)任务集与任务
RDD为什么要划分Stage,怎么划分stage?
Spark如何管理资源?
Spark内部如何调度?
Shuffle是怎么个过程?
本文出自 “简答生活” 博客,转载请与作者联系!
浅谈Spark内部运行机制
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。