首页 > 代码库 > 运维系列:04、Spark Standalone运行

运维系列:04、Spark Standalone运行

安装配置

hosts配置:
    
 
用户:
    useradd spark
 
1、SSH无密码登录
 
2、JDK
 

3、安装Scala 2.10.4

 

4、安装配置Spark

4.1、解压与权限

    chown -R spark:spark /opt/spark

4.2、配置worker

vi conf/slaves
ES122
ES123
ES124
 

4.3、配置spark-env.sh

cp conf/spark-env.sh.template conf/spark-env.sh
vi conf/spark-env.sh
export SPARK_MASTER_IP=ES122
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=4
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=6g
注:机器配置为CPU为4核,内存8G

4.4、配置SPARK_HOME

vi /etc/profile
#spark
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
source /etc/profile
 

5、启动

5.1、不用sbin脚本的方式
启动Worker
./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT
 
5.2、启动集群
在master上
su spark
cd /opt/spark
sbin/start-all.sh
 

6、测试

 
提交Application:
bin/spark-submit --class org.hansight.spark.examples.SogouQTotal--master spark://es122:7077/opt/examples-0.0.1-SNAPSHOT.jar
 

7:启动spark-shell

spark-shell 是一个spark application,运行时需要向资源管理器申请资源,如standalone spark、YARN、Mesos。本例向standalone spark申请资源,所以在运行spark-shell时需要指向申请资源的standalone spark集群信息,其参数为MASTER。
 
如果未在spark-env.sh中申明MASTER,则使用命令MASTER=spark://cdh1:7077 bin/spark-shell启动;
如果已经在spark-env.sh中申明MASTER,则可以直接用bin/spark-shell启动。
 
由于spark-shell缺省的情况下,会申请所有的CPU资源

// TODO HA

 
http://spark.apache.org/docs/latest/spark-standalone.html

运维系列:04、Spark Standalone运行