hive 分配map数过少导致任务执行慢

2024-07-19 05:04:53 219人阅读

数据表大概150M，但是只有几个字段，导致行数特别多，当使用正则表达式去匹配时执行较慢。

解决思路：增大map数;

//设置reduce数为150，将原表分成150份，map数无法直接设置，因为和输入文件数和文件大小等几个参数决定
set mapred.reduce.tasks = 150;

//在map完成阶段不对文件进行合并，相应还有个mapredfiles，是在整个任务完成后不对输出文件合并，否则无法达到分割150份目的
set hive.merge.mapfiles=false;

设置需要合并的文件最大为1M，就是说当map的输入文件小于1M时才会被合并；以为150M分成150份每个是1M，所以不会被合并，这样就会有150个map了；因为输入文件使用了压缩累：查看hive.input.format参数可知
set mapred.max.split.size=1000000;

将原文件按最后一列随机数列分配到每个reduce；123为随机数的种子生成器

drop table tmp_libc_sso_dislocation_1;
create table tmp_libc_sso_dislocation_1 as
select * from tmp_libc_sso_dislocation
distribute by rand(123);

hive 分配map数过少导致任务执行慢

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们