首页 > 代码库 > idea_pyspark 环境配置
idea_pyspark 环境配置
1、配置好Hadoop和spark
2、配置好Pytho3.5
3、安装py4j
pip3 install py4j
4、idea 中添加Python插件
file->setting->editor->plugins
右边搜索框中 搜索Python,下载插件
5、下载完后,重启软件,建立Python项目,导入pyspark的包文件
导入步骤:file->project Structure->modules->右边栏中点dependencies->点添加->将"spark/python" 添加进去
6、test:
from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession .builder .master("local") .appName("PythonWordCount") .getOrCreate() data = http://www.mamicode.com/spark.read.csv("/lab/data/2/02singleentry.csv") data.show(10) spark.stop()
7、目前观察不能读取本地的数据,只能读取HDFS上的数据
idea_pyspark 环境配置
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。