首页 > 代码库 > 一键部署 spark

一键部署 spark

2024-10-18 12:28:02 212人阅读

前言

Spark简介

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口

1.准备工作

下载安装包

scala-2.9.3：一种编程语言 Scala下载地址：http://www.scala-lang.org/download/
spark-1.4.0：必须是编译好的Spark，如果下载的是Source，则需要自己根据环境使用SBT或者MAVEN重新编译才能使用。 Spark下载地址：http://spark.apache.org/downloads.html。

如图所示：

技术分享

2、安装scala-2.9.3

3、安装spark-1.4.0

技术分享

4、修改Spark配置文件

技术分享

在spark-env.sh末端添加如下几行：

技术分享

spark-defaults.conf中还有如下配置参数：

5、测试spark安装是否成功

技术分享

6、使用wordcount例子测试，启动spark-shell之前先上传一份文件到hdfs
7、代码：
    val file = sc.textFile("hdfs://hadoop.master:9000/data/intput/wordcount.data")
    val count = file.flatMap(line=>(line.split(" "))).map(word=>(word,1)).reduceByKey(_+_)
    count.collect()
    count.textAsFile("hdfs://hadoop.master:9000/data/output")
理解上面的代码你需要学习scala语言。

技术分享

总结：山不厌高，海不厌深。

本文出自 “李世龙” 博客，谢绝转载！

一键部署 spark

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 一键部署 spark

一键部署 spark

5、测试spark安装是否成功

看完仍有疑问？有类似问题直接问程序猿