首页 > 代码库 > spark参数调优

spark参数调优

spark对内存有一定的要求,内存不够会因为gc而oom。

1、默认情况下,一个worker的内存0.6用于cache,0.4用于task,可以通过设置该值提高每个worker的cache大小

spark.storage.memoryFraction   0.8

2、设置并行task数,提高reducer效率

spark.default.parallelism     10

这个在1.0.2版本中会出现java.lang.IllegalArgumentException: Can‘t zip RDDs with unequal numbers of partitions的错误,这在PR1763已经解决

3、spark临时目录
 spark.local.dir        /data/spark/tmp

在1.0上会被SPARK_LOCAL_DIRS (Standalone, Mesos),LOCAL_DIRS (YARN) 环境变量覆盖

spark参数调优