首页 > 代码库 > Hadoop基础学习

Hadoop基础学习

一、Apache Hadoop 历史发展

Apache Hadoop 的雏形开始于2002年的 Apache 的 Nutch。Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和 Web 爬虫。

随后在 2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统(GFS)。GFS 也就是 Google File System,是 Google 公司为了存储海量搜索数据而设计的专用文件系统。

2004年 Nutch 创始人 Doug Cutting(同时也是 Apache Lucene 的创始人) 基于 Google 的 GFS 论文实现了分布式文件存储系统名为 NDFS。

2004年 Google 又发表了一篇技术学术论文,向全世界介绍了 MapReduce。2005年 Doug Cutting 又基于 MapReduce,在 Nutch 搜索引擎实现了该功能。

2006年,Yahoo! 雇用了 Doug Cutting,Doug Cutting 将 NDFS 和MapReduce 升级命名为 Hadoop。Yahoo! 开建了一个独立的团队给 Goug Cutting 专门研究发展 Hadoop。

2008年1月,Hadoop 成为了 Apache 顶级项目。之后 Hadoop 被成功的应用在了其他公司,其中包括 Last.fm、Facebook、《纽约时报》等。

2008年2月,Yahoo! 宣布其搜索引擎产品部署在一个拥有1万个内核的 Hadoop 集群上。

2008年4月,Hadoop 打破世界记录,称为最快排序1TB数据的系统。

二、分布式与集群区别简介

分布式:一个业务分拆多个子业务,部署在不同的服务器上
集群:同一个业务,部署在多个服务器上
集群是个物理形态,分布式是个工作方式
分布式是分任务并发处理;集群是同一个任务一起处理。
举个例子:
小饭店原来只有一个厨师,切菜洗菜备料炒菜全干。后来客人多了,厨房一个厨师忙不过来,又请了个厨师,两个厨师都能炒一样的菜,这两个厨师的关系是集群。为了让厨师专心炒菜,把菜做到极致,又请了个配菜师负责切菜,备菜,备料,厨师和配菜师的关系是分布式,一个配菜师也忙不过来了,又请了个配菜师,两个配菜师关系是集群

三、Hadoop家族产品图

技术分享

四、Hadoop基本介绍与了解

Hadoop 的框架最核心的设计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,而 MapReduce 则为海量的数据提供了计算。
目的是支持从单一服务器到上千台机器的扩展,充分利用了每台机器所提供本地计算和存储,而不是依靠硬件来提供高可用性。

Hadoop三种安装模式:单机模式,伪分布式,真正分布式

  1. 单机模式standalone
    单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

  2. 伪分布模式安装
    tar xzvf hadoop-0.20.2.tar.gz
    Hadoop的配置文件:
    conf/hadoop-env.sh 配置JAVA_HOME
    core-site.xml 配置HDFS节点名称和地址
    hdfs-site.xml 配置HDFS存储目录,复制数量
    mapred-site.xml 配置mapreduce的jobtracker地址
    配置ssh,生成密匙,使到ssh可以免密码连接
    cd /root
    ssh -keygen -t rsa
    cd .ssh
    cp id_rsa.pub authorized_keys覆盖公钥,就能免密码连接
    启动Hadoop bin/start-all.sh
    停止Hadoop bin/stop-all.sh

  3. 完全分布式模式
    完全分布式模式就是所要介绍的重点内容了,点击下一篇随笔:http://www.cnblogs.com/jichui/p/7137804.html

 

Hadoop基础学习