首页 > 代码库 > Hadoop HDFS详解(2)

Hadoop HDFS详解(2)

HDFS的主要特性

  HDFS是基于流数据模式访问和处理超大文件的需求而开发的。HDFS主要特点 概括为以下几点:

1.处理超大文件。超大文件通常是指数百MB、甚至数百TB大小的文件。

2.检测和快速应对硬件故障。一般的HDFS系统是由数百台甚至上千台服务器组成,因此,故障检测和自动恢复是HDFS的一个设计目标。

3.流式数据访问。HDFS的设计建立在“一次写入,多次读取”的基础上。HDFS处理的数据规模都比较大,一般都是批处理,所以它注重的是数据的吞吐量,而不是数据的访问速度。

4.简化的一致性模型。大部分的HDFS程序操作文件时需要一次写入,多次读取。在HDFS中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了。这样简单的一致性模型,有助于提高吞吐量的数据访问模型。

而HDFS不适用于如下应用:

1.低延迟数据访问。因为HDFS关注的是数据的吞吐量,而不是数据的访问速度,所以HDFS不适用于要求低延迟的数据访问应用。

2.大量的小文件。HDFS是通过将数据分布在数据节点,并将文件的元数据保存在名字节点上来支持超大文件存储的。名字节点的内存大小决定了HDFS系统可保存的文件数量,大量的小文件会影响到名字节点的性能。

3.多用户写入修改文件。HDFS中的文件只能有一个写入者,而且写操作总是在文件末。它不支持多个写入者,也不支持在数据写入后,在文件的任意位置进行修改。

Hadoop HDFS详解(2)