首页 > 代码库 > hadoop学习之HDFS

hadoop学习之HDFS

1、什么是大数据?什么是云计算?什么是hadoop?

       大数据现在很火,到底什么是大数据,多大的数据才算大,一般而言对于TB级以上的数据我们成为大数据,对于这些数据它的价值在哪?大数据的价值就是我们大量的数据中分析出有价值的信息,来判断一些行为等等信息。而这些大数据存储在哪?如何进行分析?这就衍生了Hadoop。

     云计算是什么?通俗的说云计算就是大规模的计算机集群(即多台服务器集群),我们通过软件将这些计算机整合起来,根据需求根据用户来提供服务。比如进行一些数据的计算分析。用来提高工作效率。(这是目前理解的,后面有深入再写)

 什么是hadoop?通俗的说,hadoop就是对大数据进行处理的一个工具。利用它我们可以对数据的管理,主要有两方面:数据存储(HDFS)和数据计算(MapReduce、spark、storm),所以我们简单理解为一个数据处理工具即可。

2、什么是HDFS?

     刚上面说了HDFS是hadoop中负责对数据进行存储相当于的一个功能模块吧,总的来说,HDFS是一个分布式的文件系统,它可以无限制的存放大量的文件,这些文件分布式的存放在HDFS中,具有高容错、批处理的特点。

3、HDFS的原理?

HDFS的设计思想:

技术分享

 

名称解释:

NN:

SNN:

DN:

SNN合并图:

技术分享

 

我们根据图来分析:

HDFS写流程:

技术分享

 

技术分享

 

 

4、HDFS如何搭建集群

centos中搭建集群的步骤:

 

5、什么是HA?

首先为什么会出现HA?

高可用的原因:NN宕机,内存受限

名称解释:

ZK:

JN:

NN acitve:

NN standby:

FileController:

上图分析:

技术分享

 

 

6、如何搭建高可用(HA)的HDFS?

centos搭建步骤:

hadoop学习之HDFS