Hadoop源起与体系概述

引[一个典型的实验环境]：

1.服务器： ESXi，可以在上面部署10多台虚拟机，能同时启动4台;

ESXi可以直接安装在裸机上面，而不用首先安装一个WinServer或Linux(StandAlone安装)。

ESXi在本质上就是一个高度定制化的Linux，其内核与周边环境都被VMWare公司修改了。

2.PC：要求Linux环境或Windows+Cygwin，Linux可以是StandAlone或者使用虚拟机

3.SSH：Windows下可以使用SecureCRT或putty等ssh client程序，作用是用来远程连接Linux服务器，Linux下可以直接使用ssh命令

4.Vmware client：用于管理ESXi

5.Hadoop版本:由于Hadoop不同版本之间差异很大,不同版本之间的继承性也不是很高,在学习的初期选择一个跟市面上的大部分教材相同的Hadoop版本,是比较推荐的;在学成之后,对Hadoop已经非常熟悉了,再用最新版本是比较好的.

Hadoop的思想之源：Google

Google搜索引擎，Gmail，安卓，Google Maps，Google earth，Google学术，Google翻译，Google+，Appspot,下一步Google what？？

Google的低成本之道

1.不使用超级计算机，不使用存储（如阿里巴巴的去IOE之路）

2.大量使用普通的pc服务器（去掉机箱，外设，硬盘），提供有冗余的集群服务

3. 全世界多个数据中心，有些附带发电厂

4.运营商向Google倒付费O(∩_∩)O~

集装箱数据中心:位于 Mountain View， Calif 总部的数据中心

总功率为10000千瓦，拥有45个集装箱，每个集装箱都由Google自行标准化设计,每个集装箱中有1160台服务器，该数据中心的能效比为1.25（ PUE 为 1 表示数据中心没有能源损耗，而根据2006年的统计，一般公司数据中心的能效比为 2.0 或更高。Google 的 1.16 已经低于美国能源部2011年的1.2 的目标）