首页 > 代码库 > 王家林的云计算分布式大数据Hadoop企业级开发动手实践

王家林的云计算分布式大数据Hadoop企业级开发动手实践

一:课程简介:

    Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS、MapReduce、BigTable相对的HDFS、MapReduce、和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助您在云计算技术时代自由翱翔。

二:课程特色

1,      深入浅出中动手实作;

2,      掌握Hadoop三大核心:HDFS、MapReduce、和HBase;

3,      掌握数据仓库和挖掘技术Hive;

4,      理解业界的成功典范亚马逊云计算

 

 

三:适合对象:

   软件工程师;

    数据库开发人员;

    网络后台开发人员;

    运维人员;

四:基础要求

   了解Linux系统;

    了解网络;

    了解Java;

五:讲师简介

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发中国电信的多次Hadoop培训,花旗银行的Hadoop内训,金立手机的Hadoop内训等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;     

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

 

六:培训内容

 

时间

内容

备注

第一天

第1个主题:云计算的三大核心技术

1. HDFS

2. MapReduce

3. HBase

 

第2个主题:Hadoop集群与管理

1、 Hadoop集群的搭建
2、 Hadoop集群的监控
3、 Hadoop集群的管理
4、 集群下运行MapReduce程序

 

第3主题:MapReduce剖析

1. MapReduce的原理和运行过程  

2. 构建MapReduce的开发环境

 

第4主题:MapReduce案例实战

1. 使用MapReduce的Java接口实现经典的WordCount 

2. wordcount运行过程解析

3. MapReduce实现数据去重操作

4. MapReduce实现数据排序

5. MapReduce实现数据平均数据的计算

 

第5题:在亚马逊EC2上运行MapReduce程序

1. 将本地代码转移到亚马逊EC2上

2. 操作亚马逊Hadoop集群上的数据

3. 清空和关闭EC2实例

 

第6题:Amazon EMR

1. Amazon EMR

2. 亚马逊AWS导入/导出

 

第7个主题:HDFS

1. HDFS命令行操作实战

2. HDFS的配置管理

3. NameNode的工作机制

 

第8个主题:HDFS案例实战

1. HDFS案例的分析和设计

2. 环境搭建

3.使用Hadoop Java API实现对HDFS写入、读取、删除文件等操作

 

第9个主题:MapReduce剖析

1. MapReduce的原理和运行过程  

2. 构建MapReduce的开发环境

 

 

 

时间

内容

备注

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二天

第1个主题:MapReduce案例实战

1. 使用MapReduce的Java接口实现经典的WordCount 

2. wordcount运行过程解析

3. MapReduce实现数据去重操作

4. MapReduce实现数据排序

5. MapReduce实现数据平均数据的计算

 

第2个主题:HBase架构设计和实现剖析

1、 HBase定义
2、 HBase与RDBMS的对比
3、 数据模型
4、 系统架构
5、 HBase上的MapReduce
6、 表的设计

 

第3个主题:HBase集群及其管理

1、 集群的搭建过程讲解
2、 集群的监控
3、 集群的管理

 

第4个主题:HBase客户端

1、 HBase Shell以及演示
2、 Java客户端以及代码演示

 

第5个主题:HBase与MapReduce

1. HBase与MapReduce的关系

2. HBase如何使用MapReduce

 

第6个主题:MapReduce高级实战

1. Split实现剖析

2. 自定义输入的实现

3. Reduce的partition 

4. 案例实战

 

第7个主题:安装和使用Hive

1. Hive剖析

2. 安装Hive

3.Hive的基本使用

 

第8个主题:Hive与HDFS、MapReduce

1. Hive向HDFS存入结构化数据

2. 使用MySQL作为Hive的元数据库

3.Hive与MapReduce

 

第9个主题:Hive

1. Hive的Java扩展开发

2. Hive UDF和UDAF开发

3. Hive常见场景,实战练习

 

第10个主题:Sqoop

1. Sqoop原理

2. Sqoop使用详解

3. 用Sqoop实现HDFS/Hive与关系数据库的数据交互

4. 用Sqoop实现HBase与关系数据库的数据交互

 

第11个主题:Hadoop开发者之路

1. Hadoop技能模型

2. Hadoop开发者最佳学习路线和方式

3.Hadoop开发者最佳成长路线