首页 > 代码库 > Spark 学习总结

Spark 学习总结

摘要:

  1.spark_core

  2.spark_sql

  3.spark_ml

内容:

1.spark_core

原理篇:  

  Spark RDD 核心总结

  RangePartitioner 实现简记  

  Spark核心作业调度和任务调度之DAGScheduler源码

  Spark 运行架构核心总结

  Spark DAGSheduler生成Stage过程分析实验

      Spark join 源码跟读记录

  图解spark的RDD编程模型 (收藏用)

实战篇:

  Spark算子选择策略

  Spark的持久化简记

  Spark读取HBase

  【转】Spark常见问题汇总

  Spark 开发中遇到的一些问题

调优篇:  

  Spark算子选择策略

  spark参数调优

  Spark Shuffle原理、Shuffle操作问题解决和参数调优

  

2.spark_sql

  hive处理json

  sql分组排序取top n

3.spark_ml

   Spark2 ML 学习札记

   http://www.cnblogs.com/yuguoshuo/tag/spark-mllib/

4.spark streaming

  Spark踩坑记——Spark Streaming+Kafka

   

Spark 学习总结