首页 > 代码库 > spark参数调优
spark参数调优
spark对内存有一定的要求,内存不够会因为gc而oom。
1、默认情况下,一个worker的内存0.6用于cache,0.4用于task,可以通过设置该值提高每个worker的cache大小
spark.storage.memoryFraction 0.8
2、设置并行task数,提高reducer效率
spark.default.parallelism 10
这个在1.0.2版本中会出现java.lang.IllegalArgumentException: Can‘t zip RDDs with unequal numbers of partitions的错误,这在PR1763已经解决
3、spark临时目录
spark.local.dir /data/spark/tmp
在1.0上会被SPARK_LOCAL_DIRS (Standalone, Mesos),LOCAL_DIRS (YARN) 环境变量覆盖
spark参数调优
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。