2016/06/27 HDFS概述

2024-08-14 22:51:38 217人阅读

HDFS作为一个分布式文件系统，具有高容错的特点，它可以部署在廉价的通用硬件上，提供高吞吐率的数据访问（吞吐率：是对一个系统和它的部件处理传输数据请求能力的总体评价），适合那些需要处理海量数据集的应用程序。

支持超大文件。超大文件在这里指的是几百MB，几百GB甚至几TB大小的文件，一般来说，一个Hadoop文件系统会存储T（1TB = 1024GB）、P（1P = 1024T）级别的数据。Hadoop需要能够支持这种级别的大文件。
检测和快速应对硬件故障。在大量通用硬件平台上构建集群时，故障，特别是硬件故障是常见的问题。一般的HDFS系统是由数百台甚至上千台存储着数据文件的服务器组成，这么的服务器意味着高故障率。因此，故障检测和自动恢复是HDFS的一个设计目标。
流式数据访问。（流式数据：来一点，处理一点）HDFS处理的数据规模都比较大，应用一次需要访问大量的数据。同时，这些应用一般是批量处理，而不是用户交互处理。HDFS使应用程序能够以流的形式访问数据集，注重的是数据的吞吐量，而不是数据访问的速度。
简化的一致性模型。大部分的HDFS程序操作文件时需要一次写入，多次读取。在HDFS中，一个文件一旦经过创建、写入、关闭后，一般就不需要修改了。这样简单的一致性模型，有利于提供高吞吐量的数据访问模型。

不适用：

低延迟访问数据。低延迟数据，如和用户进行交互的应用，需要数据在毫秒或秒的范围内得到响应。由于Hadoop针对高数据吞吐量做了优化，而牺牲了获取数据的延迟，对于低延迟访问，可以考虑使用HBase。
大量的小文件。HDFS支持超大文件，是通过将数据分布在数据节点（DataNode），并将文件的元数据保存在名字节点（NameNode）上。名字节点的内存大小，决定了HDFS文件系统可保存的文件数量，虽然现在的系统内存都比较大，但大量的小文件还是会影响名字节点的性能。
多用户写入文件、修改文件。HDFS中的文件只能有一盒写入者，而且写操作总是在文件末。它不支持多个写入者，也不支持在数据写入后，在文件的任意位置进行修改。

2016/06/27 HDFS概述

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们