Spark学习笔记

2024-11-03 01:54:02 204人阅读

Spark学习笔记

转贴请声明原文：http://blog.csdn.net/duck_genuine/article/details/40506715

join跟union方法測试效果

join(otherDataset, [numTasks])：(K, V) join (K, W) => (K, (V, W))

測试过假设没有join到的key，就没有数据，也就是两个RDD没有共同的K,则没有对应的数据

如：

res15: Array[(Int, Int)] = Array((1,2), (2,3), (3,4))

res16: Array[(Int, Int)] = Array((1,2), (2,3), (4,5))

两个list 的join结果例如以下：

res17: Array[(Int, (Int, Int))] = Array((1,(2,2)), (2,(3,3)))

union(otherDataset) 返回一个新的数据集，由原数据集和參数联合而成

两个list 的 union结果例如以下：

res18: Array[(Int, Int)] = Array((1,2), (2,3), (3,4), (1,2), (2,3), (4,5))

临时未測试map的

spark样例

https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples

XGraph 图计算

http://spark.apache.org/docs/latest/graphx-programming-guide.html#migrating-from-spark-091

spark streaming 流式计算

学习资料

http://shiyanjun.cn/archives/744.html

http://fossies.org/linux/spark/core/src/test/java/org/apache/spark/JavaAPISuite.java

Spark学习笔记

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们