首页 > 代码库 > Spark1.0.0 学习路线

Spark1.0.0 学习路线

接触了Spark也快有半年了,版本从0.8.0到现在的1.0.0SNAPSHOT,从头到尾被spark这个优秀的框架深深吸引,也为scala的优雅所折服。4.19日“2014 中国Spark技术峰会”召开,可以看出随着Spark技术的完善,越来越多的企业已经开始使用或开始关注Spark的发展了。回顾学习过程,觉得很有必要整理一份学习路线,对所学的内容加以沉淀,同时也为同行作为参考。
因为Spark1.0.0即将发布,增加了很多特性,所以决定修改以前的博文,全都采用Spark1.0.0,计划写40-50篇左右的博文,尽量在7月底完成。
笔者在百度云盘上提供了本人编译的spark1.0.0-SNAPHOT的部署包,还提供了支持Tachyon0.4.1的部署包。实验环境所涉及的软件有:
hadoop 2.2.0
Scala 2.10.4
SBT 0.12.3
Maven 3.0.4

1:原理篇
Spark1.0.0 运行架构基本概念
  • RDD 细解
  • DAG Scheduler 细解
  • Task Scheduler 细解
  • Spark1.0.0 Standalone 运行原理解析
  • Spark1.0.0 on YARN 运行原理解析
  • Spark1.0.0 on Mesos 运行原理解析
Spark1.0.0 编程模型
  • Spark1.0.0 编程模型解析
Spark Streaming运行架构基本概念

2:运维篇
部署篇
  • Spark1.0.0 的四种编译方法
  • Spark1.0.0 on YARN 模式部署
  • Spark1.0.0 on Mesos 模式部署
  • Spark1.0.0 Standalone模式部署
  • Spark1.0.0 Standalone HA实现
监控篇
  • Spark1.0.0 UI监控解读
  • 用ganglia监控Spark1.0.0
优化篇
  • Spark1.0.0 的一些小经验
  • Spark1.0.0 性能调优

3:Spark生态环境
Spark1.0.0 生态环境简介
Spark on SQL 简介

4:Spark开发
Spark1.0.0 多语言编程
Spark1.0.0 多语言编程之Scala实现
Spark1.0.0 多语言编程之Python实现

5:源码研读
Spark1.0.0 源码研读环境搭建
一张图看懂Spark源码

6:杂记
为什么学习Spark
关于SPARK_WORKER_MEMORY和SPARK_MEM

在csdn上发布一下这博客,看看效果,如果好的话,将163.com上博客搬过来。因为要修改的东西太多,有点犹豫不决。