首页 > 代码库 > Spark企业级开发最佳实践
Spark企业级开发最佳实践
课程介绍
本课程是世界上第一Spark企业级最佳实践课程,课程包含:
Spark的架构设计;
Spark编程模型;
Spark内核框架源码剖析;
Spark的广播变量与累加器;
Shark的原理和使用;
Spark的机器学习;
Spark的图计算GraphX;
Spark SQL;
Spark实时流处理;
Spark程序的测试;
Spark的优化;
Spark on Yarn;
JobServer;
最后以一个商业级别的Spark案例为基础,实战展示商业级别Spark项目的架构设计、实现和优化;
培训对象
1, 云计算大数据从业者;
2, Hadoop使用者;
3, 系统架构师、系统分析师、高级程序员、资深开发人员;
4, 牵涉到大数据处理的数据中心运行、规划、设计负责人;
5, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;
6, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;
7, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;
学员基础
了解面向对象编程;
了解Linux的基本使用;
了解Scala语法
王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)
中国目前唯一的移动互联网和云计算大数据集大成者;
云计算大数据Spark亚太研究院院长和首席专家;
Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。
Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;
Android架构师、高级工程师、咨询顾问、培训专家;
通晓Android、HTML5、Hadoop,迷恋英语播音和健美;
致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;
国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。
HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;
超过10本的IT畅销书作者;
培训内容
第一天 | 第1堂课:Spark的架构设计 1.1 Spark生态系统剖析 1.2 Spark的架构设计剖析 1.3 RDD计算流程解析 1.4 Spark的出色容错机制
第2堂课:Spark编程模型 2.1 RDD 2.2 transformation 2.3 action 2.4 lineage 2.5宽依赖与窄依赖
第3堂课:深入Spark内核 3.1 Spark集群 3.2 任务调度 3.3 DAGScheduler 3.4 TaskScheduler 3.5 Task内部揭秘
第4堂课:Spark的广播变量与累加器 4.1 广播变量的机制 4.2 广播变量使用最佳实践 4.3 累加器的机制 4.4 累加器使用的最佳实践
第5堂课:编写Spark程序 5.1 程序数据的来源:File、HDFS、HBase、S3等 5.2 IDE环境构建 5.3 Maven 5.4 sbt. 5.5 编写并部署Spark程序的实例
第6堂课:SparkContext解析和数据加载以及存储 6.1 源码剖析SparkContext 6.2 Scala、Java、Python使用SparkContext 6.4 加载数据成为RDD 6.5 把数据物化 |
|
时间 | 內 容 | 备注 |
第二天 | 第7堂课:深入实战RDD 7.1 DAG 7.2 深入实战各种Scala RDD Function 7.3 Spark Java RDD Function 7.4 RDD的优化问题
第8堂课:Shark的原理和使用 8.1 Shark与Hive 8.2 安装和配置Shark 8.3 使用Shark处理数据 8.4 在Spark程序中使用Shark Queries 8.5 SharkServer 8.6 思考Shark架构
第9堂课:Spark的机器学习 9.1 LinearRegression 9.2 K-Means 9.3 Collaborative Filtering
第10堂课:Spark的图计算GraphX 10.1 Table Operators 10.2 Graph Operators 10.3 GraphX
第11堂课:Spark SQL 11.1 Parquet支持 11.2 DSL 11.3 SQL on RDD
|
|
时间 | 內 容 | 备注 |
第三天 | 第12堂课:Spark实时流处理 12.1 DStream 12.2 transformation 12.3 checkpoint 12.4 性能优化
第13堂课:Spark程序的测试 13.1 编写可测试的Spark程序 13.2 Spark测试框架解析 13.3 Spark测试代码实战
第14堂课:Spark的优化 14.1 Logs 14.2 并发 14.3 内存 14.4 垃圾回收 14.5 序列化 14.6 安全
第15堂课:Spark on Yarn 15.1 Spark on Yarn的架构原理 15.2 Spark on Yarn的最佳实践
第16堂课:JobServer 16.1 JobServer的架构设计 16.2 JobServer提供的接口 16.3 JobServer最佳实践
第17堂课:Spark项目案例实战 17.1 Spark项目的最佳架构模式 17.2 案例的介绍和架构 17.3 案例的源码实现 17.4 调优
|
|
Spark企业级开发最佳实践