hadoop学习之HDFS

2024-10-24 03:55:02 209人阅读

1、什么是大数据？什么是云计算？什么是hadoop？

大数据现在很火，到底什么是大数据，多大的数据才算大，一般而言对于TB级以上的数据我们成为大数据，对于这些数据它的价值在哪？大数据的价值就是我们大量的数据中分析出有价值的信息，来判断一些行为等等信息。而这些大数据存储在哪？如何进行分析？这就衍生了Hadoop。

云计算是什么？通俗的说云计算就是大规模的计算机集群（即多台服务器集群），我们通过软件将这些计算机整合起来，根据需求根据用户来提供服务。比如进行一些数据的计算分析。用来提高工作效率。（这是目前理解的，后面有深入再写）

什么是hadoop？通俗的说，hadoop就是对大数据进行处理的一个工具。利用它我们可以对数据的管理，主要有两方面：数据存储（HDFS）和数据计算（MapReduce、spark、storm），所以我们简单理解为一个数据处理工具即可。

2、什么是HDFS?

刚上面说了HDFS是hadoop中负责对数据进行存储相当于的一个功能模块吧，总的来说，HDFS是一个分布式的文件系统，它可以无限制的存放大量的文件，这些文件分布式的存放在HDFS中，具有高容错、批处理的特点。

3、HDFS的原理？

HDFS的设计思想：

技术分享

名称解释：

NN:

SNN:

DN:

SNN合并图：

技术分享

我们根据图来分析：

HDFS写流程：

技术分享

4、HDFS如何搭建集群

centos中搭建集群的步骤：

5、什么是HA?

首先为什么会出现HA?

高可用的原因：NN宕机，内存受限

名称解释：

ZK:

JN:

NN acitve：

NN standby：

FileController：

上图分析：

技术分享

6、如何搭建高可用（HA）的HDFS?

centos搭建步骤：

hadoop学习之HDFS

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们