spark-yarn 模式 jar包优化

2024-09-23 13:56:45 216人阅读

在yarn模式下，会上传jar包到yarn来执行spark程序，如果每次都上传，很耗时间，而且如果是阿里云的机器，上传很慢，180m的jar要上传十几分钟，所以要提前上传到hdfs中去。

spark支持如下几个参数

技术分享

spark.yarn.jars：只能指定具体jar包，在spark1.6.2（包括）以前，从官网上可以下载一个大的jar包，写上这个jar包即可，但是在2.0过后，就成为了一大堆小包

spark.yarn.archive：这个支持文件夹，但是有一点要注意，

.set("spark.yarn.archive","hdfs://node2:8020/user/xiaokan/assembly/target/scala-2.11/jars")

.set("spark.yarn.archive","hdfs://node2:8020/user/xiaokan/assembly/target/scala-2.11/jars/")

只有第一种写法正确，第二种错误，第二种写法不会读取任何jar包。

本文出自 “去买大白兔” 博客，转载请与作者联系！

spark-yarn 模式 jar包优化

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们