首页 > 代码库 > hadoop学习之HDFS
hadoop学习之HDFS
1、什么是大数据?什么是云计算?什么是hadoop?
大数据现在很火,到底什么是大数据,多大的数据才算大,一般而言对于TB级以上的数据我们成为大数据,对于这些数据它的价值在哪?大数据的价值就是我们大量的数据中分析出有价值的信息,来判断一些行为等等信息。而这些大数据存储在哪?如何进行分析?这就衍生了Hadoop。
云计算是什么?通俗的说云计算就是大规模的计算机集群(即多台服务器集群),我们通过软件将这些计算机整合起来,根据需求根据用户来提供服务。比如进行一些数据的计算分析。用来提高工作效率。(这是目前理解的,后面有深入再写)
什么是hadoop?通俗的说,hadoop就是对大数据进行处理的一个工具。利用它我们可以对数据的管理,主要有两方面:数据存储(HDFS)和数据计算(MapReduce、spark、storm),所以我们简单理解为一个数据处理工具即可。
2、什么是HDFS?
刚上面说了HDFS是hadoop中负责对数据进行存储相当于的一个功能模块吧,总的来说,HDFS是一个分布式的文件系统,它可以无限制的存放大量的文件,这些文件分布式的存放在HDFS中,具有高容错、批处理的特点。
3、HDFS的原理?
HDFS的设计思想:
名称解释:
NN:
SNN:
DN:
SNN合并图:
我们根据图来分析:
HDFS写流程:
4、HDFS如何搭建集群
centos中搭建集群的步骤:
5、什么是HA?
首先为什么会出现HA?
高可用的原因:NN宕机,内存受限
名称解释:
ZK:
JN:
NN acitve:
NN standby:
FileController:
上图分析:
6、如何搭建高可用(HA)的HDFS?
centos搭建步骤:
hadoop学习之HDFS