首页 > 代码库 > Spark学习笔记——安装和WordCount

Spark学习笔记——安装和WordCount

1.去清华的镜像站点下载文件spark-2.1.0-bin-hadoop2.7.tgz,因为hadoop安装的是2.7.2的版本

2.把文件解压到/usr/local目录下,解压之后的效果,Hadoop和Spark都在Hadoop用户下

drwxrwxrwx 12 hadoop hadoop 4096 12月 16 10:18 spark-2.1.0-bin-hadoop2.7/

 添加Hadoop用户和用户组

$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hadoop
$ sudo adduser hadoop sudo

 然后修改文件夹的用户,用户组以及权限

sudo chown -R hduser:hadoop hadoop
sudo chmod 777 hadoop/

 Hadoop文件夹如果权限不对的话,也需要修改

3.在/etc/profile下添加路径

export SPARK_HOME=/usr/local/spark-2.1.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH

4.在~/coding/coding/Scala/word-count路径下准备一个文本文件,比如test.segmented文件

5.在该目录下,在终端运行 spark-shell

技术分享

创建一个RDD

scala> val textFile = sc.textFile("file:///home/common/coding/coding/Scala/word-count/test.segmented")

保存RDD成文件

textFile.saveAsTextFile("file:///home/common/coding/coding/Scala/word-count/writeback")

 这时候会发现在文件夹目录下多了writeback目录,目录下是这么几个文件

技术分享

 

Spark学习笔记——安装和WordCount