关于Linux下Spark的配置

首页 > 代码库 > 关于Linux下Spark的配置

2024-11-16 14:35:02 202人阅读

1 如果你是用scala，当我没说。这个随意都能搞得定

2 如果你是用python，你可以继续往后看。

因为spark的全量的安装包自己带的hadoop的环境，所以不需要自己去再配一个hadoop。[如果你有的话，则得确保版本兼容之类的时期]

单独解压缩一个spark的包，然后去修改相应的配置文件。[反正我是没有去配yarn的和hadoop的，直接默认，这里面坑太多了]

3 别忘记安装pyspark和py4j，anaconda 直接用pip就好。如果是anaconda用户，记得创建一个python的环境，conda create --name python python=3.6(这个是版本号，自己定义)

4 有了python环境了就可以去spark下面去试用python文件夹下的pyspark了。这个demo有的是，随便搜

5 pycharm也要改东西，这个也搜的到，无非就是PYTHON_PATH和SPARK_HOME之类的。

6 借助os的包：

import findspark
import os
PYSPARK_PYTHON = "/home/promoriarty/anaconda3/bin/python"
os.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON
from pyspark import SparkConf,SparkContext

conf = SparkConf().setAppName("test").setMaster("local")
sc = SparkContext(conf=conf)
text = sc.textFile("file:///home/promoriarty/1")
text.foreach(print)

反正我是这样把demo跑起来了。。折腾了好久。。

参考:http://blog.csdn.net/huobanjishijian/article/details/52538078 
真是谢谢这个老哥了。

关于Linux下Spark的配置

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 关于Linux下Spark的配置

关于Linux下Spark的配置

看完仍有疑问？有类似问题直接问程序猿