首页 > 代码库 > Hadoop HDFS详解(2)
Hadoop HDFS详解(2)
HDFS的主要特性
HDFS是基于流数据模式访问和处理超大文件的需求而开发的。HDFS主要特点 概括为以下几点:
1.处理超大文件。超大文件通常是指数百MB、甚至数百TB大小的文件。
2.检测和快速应对硬件故障。一般的HDFS系统是由数百台甚至上千台服务器组成,因此,故障检测和自动恢复是HDFS的一个设计目标。
3.流式数据访问。HDFS的设计建立在“一次写入,多次读取”的基础上。HDFS处理的数据规模都比较大,一般都是批处理,所以它注重的是数据的吞吐量,而不是数据的访问速度。
4.简化的一致性模型。大部分的HDFS程序操作文件时需要一次写入,多次读取。在HDFS中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了。这样简单的一致性模型,有助于提高吞吐量的数据访问模型。
而HDFS不适用于如下应用:
1.低延迟数据访问。因为HDFS关注的是数据的吞吐量,而不是数据的访问速度,所以HDFS不适用于要求低延迟的数据访问应用。
2.大量的小文件。HDFS是通过将数据分布在数据节点,并将文件的元数据保存在名字节点上来支持超大文件存储的。名字节点的内存大小决定了HDFS系统可保存的文件数量,大量的小文件会影响到名字节点的性能。
3.多用户写入修改文件。HDFS中的文件只能有一个写入者,而且写操作总是在文件末。它不支持多个写入者,也不支持在数据写入后,在文件的任意位置进行修改。
Hadoop HDFS详解(2)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。