Hadoop与分布式开发

首页 > 代码库 > Hadoop与分布式开发

2024-07-26 19:43:55 224人阅读

hadoop上的并行应用程序开发是基于MapReduce编程框架的，MapReduce编程模型的原理是：利用一个输入的key/value对集合来产生一个输出的key/value对集合。MapReduce库的用户用两个函数来表达这个计算：Map和Reduce。

用户自定义的map函数接收一个输入的key/value对，然后产生一个中间key/value对的集合。MapReduce把所有具有相同key值的value集合在一起，然后传递给reduce函数。

用户自定义的reduce函数接收key和相关的value集合。reduce函数合并这些value值，形成一个较小的value集合。一般来说，每次reduce函数调用只产生0或1个输出的value值。通常我们通过一个迭代器把中间的value值提供给reduce函数，这样就可以处理无法全部放入内存中的大量的value值集合了。MapReduce计算模型非常适合在大量计算机组成的大规模集群上并行运行。

Hadoop分布式文件系统由一个名称节点和N个数据节点组成。每个节点均是一台普通的计算机。在使用方式上HDFS与我们熟悉的单机文件系统非常类似，它可以创建目录，创建、复制和删除文件，以及查看文件的内容等。

通常，MapReduce框架和分布式文件系统是运行在一组相同的节点上的，也就是说，计算节点和存储节点在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务，这可以使整个集群的网络带宽被非常高效的利用。

HBase的数据管理

HBase是一个类似Bigtable的分布式数据库，它的大部分特性和Bigtable一样，是一个稀疏的、长期存储的、多维度的排序映射表。这张表的索引是行关键字、列关键字和时间戳。每个值是一个不解释的字符数组，数据都是字符串，没有类型。

HBase体系结构的三大重要组成部分是：

HBaseMaster：HBase主服务器，与Bigtable的主服务器类似。
HRegionServer：HBase域服务器，与Bigtable的Tablet服务器类似。
HBaseClient：HBase客户端是由org.apache.hadoop.HBase.client.HTable定义的。

NameNode：HDFS的守护程序，记录文件是如何分割成数据块的，以及这些数据块被存储到哪些节点上，对内存和I/O进行集中管理，是个单点，发生故障将使集群崩溃

SecondaryNameNode：监控HDFS状态的辅助后台程序，每个集群都有一个，与NameNode进行通讯，定期保存HDFS元数据快照，当NameNode故障可以作为备用NameNode使用

DataNode：每台从服务器都运行一个，负责把HDFS数据块读写到本地文件系统，负责所在物理节点的存储管理，一次写入，多次读取，文件由数据块组成，典型的大小是64MB，数据块尽量散布到各个节点

JobTracker：用于处理作业的后台程序，决定有哪些文件参与处理，然后切割task并分配节点，监控task，重启失败的task，每个集群只有唯一一个JobTracker，位于Master节点

TaskTracker：位于Slave节点，与DataNode结合，管理各自节点上的task，每个节点只有一个TaskTracker，但一个TaskTracker可以启动多个JVM，用于并行执行map或reduce任务，与JobTracker交互

Master：运行NameNode、SecondaryNameNode、JobTracker的节点，Master不是唯一的

Slave：运行TaskTracker、DataNode的节点

三种运行模式

单机模式：安装简单，几乎不用作任何配置，但仅限于调试用于

伪分布模式：在单节点上同时启动NameNode、DataNode、JobTracker、TaskTracker、SecondaryNameNode等五个进程，模拟分布式运行的各个节点

完全分布模式：正常的Hadoop集群，由多个各司其职的节点构成

NameNode使用事务日志记录HDFS元数据的变化，使用映像文件存储文件系统的命名空间，包括文件映射，文件属性等。

Hadoop与分布式开发

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Hadoop与分布式开发