BigData 学习记录（三）

首页 > 代码库 > BigData 学习记录（三）

2024-10-31 12:53:01 212人阅读

master/slave主从结构：
HDFS是一个 master/slave的架构。HDFS只有一个NameNode，即master。master负责管理文件系统命名空间和client对文件的访问。此外，HDFS有很多DataNode，通常一个机器节点一个DataNode，管理这个节点上的存储。HDFS对外提供一个文件系统名字空间允许用户把数据存为文件的格式。
文件拆分成若干个block，这些block存放在DataNode节点上。NameNode操作名字空间比如：打开，关闭，重命名文件目录。DataNode负责为文件系统的客户提供读/写操作服务。DataNode同时还为NameNode提供block创建，删除，备份机制

read write策略：
一写入数据
　　当没有配置机架信息时，所有的机器hadoop都默认在同一个默认的机架下，名为“/default-rack”，这种情况下，任何一台 datanode机器，不管物理上是否属于同一个机架，都会被认为是在同一个机架下，此时，就很容易出现之前提到的增添机架间网络负载的情况。在没有机架信息的情况下，namenode默认将所有的slaves机器全部默认为在/default-rack下
　　而当Hadoop集群中配置了机架感知信息以后，hadoop在选择三个datanode时，就会进行相应的判断：
　　1.如果上传本机不是一个datanode，而是一个客户端，那么就从所有slave机器中随机选择一台datanode作为第一个块的写入机器(datanode1)。
　注意：而此时如果上传机器本身就是一个datanode（例如mapreduce作业中task通过DFSClient向hdfs写入数据的时候），那么就将该datanode本身作为第一个块写入机器(datanode1)。
　　2.随后在datanode1所属的机架以外的另外的机架上，随机的选择一台，作为第二个block的写入datanode机器(datanode2)。
　　3.在写第三个block前，先判断是否前两个datanode是否是在同一个机架上，如果是在同一个机架，那么就尝试在另外一个机架上选择第三个datanode作为写入机器(datanode3)。而如果datanode1和datanode2没有在同一个机架上，则在datanode2所在的机架上选择一台datanode作为datanode3。
　　4.得到3个datanode的列表以后，从namenode返回该列表到DFSClient之前，会在namenode端首先根据该写入客户端跟 datanode列表中每个datanode之间的“距离”由近到远进行一个排序。如果此时DFS写入端不是datanode，则选择datanode列表中的第一个排在第一位。客户端根据这个顺序有近到远的进行数据块的写入。
　　5.当根据“距离”排好序的datanode节点列表返回给DFSClient以后，DFSClient便会创建BlockOutputStream，并将这次block写入pipeline中的第一个节点（最近的节点）。
　　6.写完第一个block以后，依次按照datanode列表中的次远的node进行写入，直到最后一个block写入成功，DFSClient返回成功，该block写入操作结束。

二读取数据
　　我们看一下Hadoop集群配置中如何读取数据。当对某个文件的某个block进行读取的时候，hadoop采取的策略也是一样：
　　1.首先得到这个block所在的datanode的列表，有几个副本数该列表就有几个datanode。
　　2.根据列表中datanode距离读取端的距离进行从小到大的排序：
　　a)首先查找本地是否存在该block的副本，如果存在，则将本地datanode作为第一个读取该block的datanode
　　b)然后查找本地的同一个rack下是否有保存了该block副本的datanode
　　c)最后如果都没有找到，或者读取数据的node本身不是datanode节点，则返回datanode列表的一个随机顺序。

BigData 学习记录（三）

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > BigData 学习记录（三）

BigData 学习记录（三）

看完仍有疑问？有类似问题直接问程序猿