首页 > 代码库 > Spark核心编程---创建RDD
Spark核心编程---创建RDD
创建RDD:
1:使用程序中的集合创建RDD,主要用于进行测试,可以在实际部署到集群运行之前,自己使用集合构造测试数据,来测试后面的spark应用流程。
2:使用本地文件创建RDD,主要用于临时性地处理一些储存了大量数据的文件
3:使用HDFS文件创建RDD,应该是最常用的生产环境处理方式,主要可以针对HDFS上储存的大数据,进行离线处理操作。
//创建SparkConf SparkConf conf = new SparkConf() .setAppName=("//跟类名一样") .setMaster("local"); //创建JavaSparkContext JavaSparkContext sc = new JavaSparkContext(conf); //要通过并行化集合的方式创建RDD,那么就调用Parallelize()方法 List<Integer> numbers = Array.asList(1,2,3,4,5,6,7,8,9,10); JavaRDD<Integer> numberRDD = sc .parallelize(numbers) ; //也可以在这个方法参数位置在添加一个参数,表明创建多少个Partition sc.parallelize(numbers,5); //执行reduce算子操作 int sum = numberRDD.reduce(new function2<Integer,Integer,Integer>(){ private static final long serialVersionUID =1L; @override public Integer call(Integer num1, Integer num2) throw Exception{ return num1+num2 } }); //输出累加的和 System.out.println("和:"+sum) //关闭JavaSparkContext sc.close();
额。。。至于其他的2种创建RDD 博打算以后再更
Spark核心编程---创建RDD
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。