首页 > 代码库 > Spark
Spark
0、参考自http://tech.uc.cn/?p=2116
http://www.csdn.net/article/2013-07-08/2816149
1、Spark是一个高效的分布式计算系统。它基于MapReduce(MR)算法实现分布式计算,但Job的中间输出和结果可以保存在内存,从而不需要读写HDFS,因此能够更好地适用于数据挖掘(DM)和机器学习(ML)等需要迭代的MR的算法。
此外,Spark提供多种类型的数据集操作(如Transformations操作:map、filter、sample等,Actions操作:count、collect、reduce等),而不只是Hadoop的Map和Reduce,各个处理节点之间的通信模型也不再像Hadoop那样就是唯一的Data Shuffle一种模式。
不过由于RDD的特性,Spark不适用于那种异步细粒度更新状态(增量修改)的应用,如web服务的存储或增量的web爬虫和索引。
Spark通过提供丰富的Scala、Java、Python API及交互式Shell来提高可用性。
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。