首页 > 代码库 > Hive语法层面优化之七数据倾斜总结
Hive语法层面优化之七数据倾斜总结
关键字 | 情形 | 后果 |
join | 其中一个表较小,但key集中 | 分发到某一个或几个reduce上的数据远高于平均值 |
大表与大表关联,但是分桶的判断字段0值或空值过多 | 这些空值都由一个reduce处理,非常慢 | |
group by | Group by维度过小,某值的数量过多 | 处理某值的reduce非常耗时 |
count distinct | 某特殊值过多 | 处理此特殊值的reduce耗时 |
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。