首页 > 代码库 > MapReduce04
MapReduce04
===================== MapReduce内部机制:本地性 =====================
什么是数据本地性(data locality)-------------------------->
如果任务运行在它将处理的数据所在的节点,则称该任务 具有“数据本地性”
本地性可避免跨节点或机架数据传输,提高运行效率
数据本地性分类 -------------------------->
同节点(node-local)
同机架(rack-local)
其他(off-switch)
===================== MapReduce内部机制:推测执行 =====================
作业完成时间取决于最慢的任务完成时间 ---------------------->
一个作业由若干个Map任务和Reduce任务构成
因硬件老化、软件Bug等,某些任务可能运行非常慢
推测执行机制 ---------------------->
发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度
为拖后腿任务启动一个备份任务,同时运行
谁先运行完,则采用谁的结果
不能启用推测执行机制 ---------------------->
任务间存在严重的负载倾斜
特殊任务,比如任务向数据库中写数据
MapReduce04
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。