首页 > 代码库 > Hadoop与分布式开发

Hadoop与分布式开发

    hadoop上的并行应用程序开发是基于MapReduce编程框架的,MapReduce编程模型的原理是:利用一个输入的key/value对集合来产生一个输出的key/value对集合。MapReduce库的用户用两个函数来表达这个计算:Map和Reduce。
    用户自定义的map函数接收一个输入的key/value对,然后产生一个中间key/value对的集合。MapReduce把所有具有相同key值的value集合在一起,然后传递给reduce函数。
    用户自定义的reduce函数接收key和相关的value集合。reduce函数合并这些value值,形成一个较小的value集合。一般来说,每次reduce函数调用只产生0或1个输出的value值。通常我们通过一个迭代器把中间的value值提供给reduce函数,这样就可以处理无法全部放入内存中的大量的value值集合了。MapReduce计算模型非常适合在大量计算机组成的大规模集群上并行运行。
    Hadoop分布式文件系统由一个名称节点和N个数据节点组成。每个节点均是一台普通的计算机。在使用方式上HDFS与我们熟悉的单机文件系统非常类似,它可以创建目录,创建、复制和删除文件,以及查看文件的内容等。
    通常,MapReduce框架和分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效的利用。

    HBase的数据管理

    HBase是一个类似Bigtable的分布式数据库,它的大部分特性和Bigtable一样,是一个稀疏的、长期存储的、多维度的排序映射表。这张表的索引是行关键字、列关键字和时间戳。每个值是一个不解释的字符数组,数据都是字符串,没有类型。
HBase体系结构的三大重要组成部分是:
  • HBaseMaster:HBase主服务器,与Bigtable的主服务器类似。
  • HRegionServer:HBase域服务器,与Bigtable的Tablet服务器类似。
  • HBaseClient:HBase客户端是由org.apache.hadoop.HBase.client.HTable定义的。
    NameNode:HDFS的守护程序,记录文件是如何分割成数据块的,以及这些数据块被存储到哪些节点上,对内存和I/O进行集中管理,是个单点,发生故障将使集群崩溃
    SecondaryNameNode:监控HDFS状态的辅助后台程序,每个集群都有一个,与NameNode进行通讯,定期保存HDFS元数据快照,当NameNode故障可以作为备用NameNode使用
    DataNode:每台从服务器都运行一个,负责把HDFS数据块读写到本地文件系统,负责所在物理节点的存储管理,一次写入,多次读取,文件由数据块组成,典型的大小是64MB,数据块尽量散布到各个节点
    JobTracker:用于处理作业的后台程序,决定有哪些文件参与处理,然后切割task并分配节点,监控task,重启失败的task,每个集群只有唯一一个JobTracker,位于Master节点
    TaskTracker:位于Slave节点,与DataNode结合,管理各自节点上的task,每个节点只有一个TaskTracker,但一个TaskTracker可以启动多个JVM,用于并行执行map或reduce任务,与JobTracker交互
    Master:运行NameNode、SecondaryNameNode、JobTracker的节点,Master不是唯一的
    Slave:运行TaskTracker、DataNode的节点

三种运行模式

单机模式:安装简单,几乎不用作任何配置,但仅限于调试用于
伪分布模式:在单节点上同时启动NameNode、DataNode、JobTracker、TaskTracker、SecondaryNameNode等五个进程,模拟分布式运行的各个节点
完全分布模式:正常的Hadoop集群,由多个各司其职的节点构成

NameNode使用事务日志记录HDFS元数据的变化,使用映像文件存储文件系统的命名空间,包括文件映射,文件属性等。

Hadoop与分布式开发