Hadoop HDFS (2) HDFS概念

首页 > 代码库 > Hadoop HDFS (2) HDFS概念

2024-07-21 21:06:25 232人阅读

1. Blocks（块）

硬盘上有块，代表能够读取和写入的最小的data单位，通常是512字节。

基于单硬盘的文件系统也有块的概念，通常是把硬盘上的一组块集合在一起成为一个块，一般有几KB大小。

这些对于文件系统的使用者都是透明的，使用者只知道往硬盘上写了一定大小的文件，或从硬盘上读了一定大小的文件。当然有些维护命令，比如df和fsck，就是在块级上的操作。

HDFS也有块（blocks），但比之前提到的大得多，默认是64MB。与单硬盘文件系统的块相同的是，HDFS上的文件会被切分成多个块大小的碎片存储，所不同的是，如果文件的大小小于一个块，它在硬盘上实际的存储空间不是一个块那么大。

为什么HDFS的blocks这么大呢？这是出于减少寻址时间考虑的，不是说块大了就寻址快了，而是让寻址时间相对于传输时间占用的比例较小。因为HDFS是基于网络的，数据会在机器之间传输，寻到该块的地址后，就向该机器读或写这个块，所以块越大，传输时间越长，寻址时间就相对较小，如果块设置成很小，那么寻址时间占比例就更高，寻址次数也更多。

块的抽象为HDFS带来许多好处。

首先，也是最明显的，文件可以比网络上的任意一台计算机的硬盘空间大。因为没有要求一个文件的所有块必须存在一台计算机上。甚至一个文件的块可以遍布集群中的每一台计算机。

其次，块的抽象，使得存储子系统更简单。简单是所有系统的追求，尤其是状况百出的分布式系统。因为块的大小是固定的，管理metadata的计算机可以很容易算出一块硬盘能存多少块，也不必担心文件元信息的存储，因为块只存储数据，文件的元信息（比如权限等）存在独立的计算机上，单独操作。

另外，块存储方便容错机制。为了保证在任意存储节点出现故障时，数据不会丢失，数据一般都是按块做备份的，通常一台机器上的块会在另外两台机器上备份，也就是一共有3份。如果一个块的数据读不到了，可以在另外一台机器上读取到，这些对HDFS的使用者是透明的。如果一个数据块不可用，它的内容会从备份机上读出并拷贝到另一个机器上，以保证备份数又恢复到设置的值。

HDFS像Linux的命令一样，也有fsck命令

%hadoop fsck / -files -blocks

在hadoop 2.x中，这个命令不建议使用，而是使用

%hdfs fsck / -files -blocks

这个命令将列出HDFS系统中每个文件被分成的块。

2. Namenodes和Datanodes

HDFS集群有两种节点类型，Namenodes和Datanodes，它们工作于master-worker模式。一个namenode是master，一组datanodes是workers。namenode管理整个文件系统的namespace。它维护一棵文件树和所有文件/目录的元信息。这些信息在namenode的本地磁盘上存成两个文件，一个是该namespace的镜像，另一个是编辑日志（edit log）。namenode也知道每个文件的每个块都存在哪个datanode上了，但这个信息不会被持久化下来，因为每次启动时，这个信息会被重新生成。

客户端程序通过访问namenode和datanodes来访问HDFS文件系统。但是用户代码根本不知道namenode和datanodes的存在，就像访问POSIX一样（Portable Operating System Interface：便携计算机系统接口）。

Datanodes是干苦力活的。当被客户端或namenode命令时，它存储和检索文件块（blocks）。它还会定期向namenode汇报它们存储的文件块列表。

没有namenode，整个文件系统就没法用了。如果把namenode移除，整个文件系统里的文件就都丢失了，因为没办法知道如何重新组装存在各个datanodes里的文件块。因此有必要保证namenode足够可靠，Hadoop提供了两种机制保证namenode里的数据安全。

第一个机制是备份namenode上的持久化信息。可以配置hadoop，让namenode写持久化信息时写到多个地方，并且这些写操作是串行的并且是原子操作。通常的做法是写到本地磁盘一份，同时写到远程NFS上。

另一个机制是配一个secondary namenode。虽然名字上叫namenode，但secondary namenode根本不做namenode的工作，它就是定期把namenode上的namespace镜像和编辑日志（edit log）合并到自己身上，以避免编辑日志过大。secondary namenode通常是一台单独的机器，因为合并工作需要大量的CPU和内存资源。因为它的状态迟于namenode，所以，当namenode发生事故时，肯定是会有数据丢失的。通常的做法是把namenode在NFS上的metadata文件拷贝到secondary namenode，然后启动这个secondary namenode，让它成为namenode。

3. HDFS Federation

namenode把HDFS文件系统中的文件和块的信息都存在内存里，这就使得当集群规模扩大时，内存资源成为了限制。因此在Hadoop 2.x中，引入了HDFS Federation的概念，允许通过增加更多的namenodes节点来扩大HDFS规模，每一个namenode管理一个namespace，比如一个namenode管理/usr下的所有文件，另一个namenode管理/share下的所有文件。这个/usr或/share叫namespace volume。namespace volumes之间彼此独立，互相不通信，一个namenode死掉了，其它namenode也不知道，也不影响对其它namenode上管理的文件的访问。

访问一个federated HDFS集群时，客户端使用一个存储在客户端的mount table（挂载表）来映射文件路径和namenodes的对应关系。用ViewFileSystem和viewfs://URIs来配置。

4. HDFS高可用性（HA：High-Availability）

前面在（2. Namenodes和Datanodes）提到的通过备份namenode上的持久化信息，或者通过secondary namenode的方式，只能解决数据不丢失，但是不能提供HA（高可用性），namenode仍然是“单点失败”（SPOF：single point of failure）。如果namenode死掉了，所有的客户端都不能访问HDFS文件系统里的文件了，不能读写也不能列出文件列表。

新的namenode必须做下面三件事才能再次提供服务：

i) 加载namespace镜像

ii) 重做编辑日志（edit log）里的操作

iii) 接收所有datanodes上的文件块信息汇报，退出安全模式

对于一个大型集群来讲，一次这样的冷启动可能要花费30分钟的时间。

在Hadoop 2.x版本中引入了active-standby模式的一对namenodes。当灾难发生时，standby的机器会取代active的机器，成为新的namenode。为了实现这样的结构，需要新的架构：

- 两个namenodes之间要有一块共享的存储空间，以便共享编辑日志（edit log）。早期实现需要一个高可用的NFS，在后来的版本中有更多的选择，例如可以使用ZooKeeper解决方案。

- 另外，因为文件块的映射关系是存在内存里的，不是存在磁盘上的，因此datanodes必须向两个namenodes同时汇报自己的存储情况。

- 客户端需要配置成能够自动处理namenode失败的情况，对使用者透明。

当active namenode死掉了，standby namenode替换上去的时间很快，也就是几十秒的样子。因为standby namenode上有最新的文件块映射信息和最新的编辑日志（edit log），一切都是时刻准备着的。但是确定active namenode是不是真的死了是个大麻烦，会花费更长时间（大概一分钟左右）。

如果active namenode和standby namenode都死了怎么办？没关系，就花30分钟冷启动一下就好了，跟没有active-standby一样，不会更坏。因此，active-standby是一个改进性的优化，不会带来副作用。

判断active是不是还活着，其实就是用心跳请求的方式的。但是，管理员还有另外一个工具可以在active还活着的情况下，优雅地切换到standby上，让standby成为新的active，这在定期维护的情况下非常有用。这种切换之所以被称为“优雅失败”（graceful failover），因为两个namenodes会按顺序切换角色，一个成为active，一个变成standby。

在不优雅的切换中，就是active死掉了，不得已换成了standby来服务，这时，原来的active不一定真的死了，可能是网络慢啊或者什么原因，导致它后来又能提供服务了，最麻烦的是它自己不知道自己曾经死了，它要是再冒出来服务就麻烦了，因此，有一系列的动作会阻止它再次加入系统，比如杀掉进程啊，关闭端口啊什么的，最后一招就是STONITH（暴头：shoot the other node in the head）。

所有这些都是对客户端透明的。客户端配置namenode时是把一个hostname映射到两个IP上的，然后分别试两个IP，哪个通就用哪个。

Hadoop HDFS (2) HDFS概念

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Hadoop HDFS (2) HDFS概念

Hadoop HDFS (2) HDFS概念

看完仍有疑问？有类似问题直接问程序猿