首页 > 代码库 > 《OD学spark》20160924scala基础
《OD学spark》20160924scala基础
拓展:
Hadoop 3.0
NameNode HA
NameNode是Active
NameNode是Standby可以有多个
HBase
Cluster
单节点故障?
HBaster -> BackMaster
HRegionServer
WEBUI 60010
Spark 课程安排
分为两个部分:
第一部分:基础篇
SCALA:1天
SparkCore:2天 - MapReduce
SparkSQL:1天 - Hive Shark = Hive on Spark
关键,企业中必用的,必须掌握
SparkStreaming:1天 - Storm
DStream
企业实时数据统计分析
Spark 2.0
StructureStreaming
第二部分:项目篇
基于Spark交互式用户行为分析系统
三天
额外扩展:
Spark MLlib学习 1天
Spark:
加州大学伯克利分校AMPLab
AMP
A:算法
M:机器
P:人类
=============================================================
1、为什么学习SCALA
-1,Spark框架SCALA编程、Kafka
源码
-2,Spark编程
SCALA、Python、JAVA、R
细心:
Spark官方文档、讲义,Spark编程代码都是Python语言
databrick
金砖
JAVA
C阵营(C、C#、C++)
Python - Spark
火的
函数
没有放在类中
方法
放在类中
隐式转换
"偷龙转凤"
大数据框架,”helloworld"程序就WordCount
hadoop -> (hadoop, 1) -> (hadoop, list(11,1,1)) -> (hadoop, 14)
rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
-1,
line.toString().split(" ")
==========================================================
Spark 1.x
Scala 2.10.x 4
Spark 2.x
Scala 2.11.x 8
Scala 语言
交互式编程语言,Shell类似,交互式命令行
正是由于提供交互式命令行,所以使得Spark程序开发、测试,很方便
对于Scala语言来说,IDE工具
The Scala IDE (based on Eclipse),
支持不是很好,提示,编译语法
IntelliJ IDEA with the Scala plugin,
最多,支持很好
NetBeans IDE with the Scala plugin.
DELIMITED FIELDS TERMINATED BY ‘\t‘
DELIMITED FIELDS TERMINATED BY char [ESCAPED BY char]]
T => U
表示函数
确定一个方法的两个标准
-1,参数
个数、类型
-2,返回值
(Int, Int) => Int
def map(f: T => U): RDD ={
}
在JAVA中,循环来说,通常有两个关键字
break
跳出整个循环
continue
跳出当前的循环
回顾一下:
JAVA中的FOR循环
for(int index = 1 ; index ++ ; index <= 10){
println(index)
}
for(index <- 1 to 10){
println(index)
}
apply()方法
《OD学spark》20160924scala基础