首页 > 代码库 > Hadoop分布式平台的大数据解决方案

Hadoop分布式平台的大数据解决方案

Hadoop分布式平台的大数据解决方案

讲师:迪伦


对这个课程有兴趣的可以加我qq2059055336联系我

课程背景

GREENPLUM适用场景
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。

GREENPLUM运行的平台
GREENPLUM运行在X86架构的硬件平台上,目前支持的操作系统包括32/64位的 LINUX(REDHAT/SUSE)/SOLARIS/MAC OS

GREENPLUM的前景
GREENPLUM 诞生于2003年硅谷,2010/07 EMC收购了GREENPLUM,并把GREENPLUM作为EMC面向分析云的战略核心产品,加以大力发展。该产品不仅在国际市场发展很快,在国内市场发展也很快。最著名的案例就是阿里巴巴集团,经过多种产品的精心选型,最终选择GREENPLUM作为它们的数据仓库平台存放数百TB的业务数据去高效支持各种分析应用。正是由于产品发展速度很快,但是在相关人才上存在很大缺口。

Hadoop的前景
随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。
Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万。
一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

 

Greenplum Hadoop大数据分析平台

大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum之后,推出的针对Hadoop的Greenplum的数据库软件。采用Greenplum HD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。

2课程内容简介

本系列课程主要分三部分:(总共70讲左右)

第一部分 Greenplum 分布式数据库基础(35课时)

第二部分 Hadoop分布式系统基础(30课时)

第三部分 Greenplum Hadoop大数据分析平台(4课时)

 

适合对象:

1、要求具有一定的Linux和Java基础

2、要求具有一定SQL语言基础

3课程大纲

第一部分 Greenplum 分布式数据库基础(35课时)

1 Greenplum架构

· 什么是Greenplum

· Greenplum体系结构

· Greenplum高可用性架构

安装Greenplum

· 配置环境

· 安装并初始化GPDB系统

· 启停数据库

· 配置GP系统

3 客户端接口和程序

· pgAdmin III

· PSQL

角色权限管理

· 客户端认证

· 管理用户和组

分布式数据库存储

· 数据是如何存储的

· 分布策略

6 GBDB查询处理

· 查询命令的执行

· SQL查询处理机制

· 并行查询计划

定义数据库对象

· 创建并管理数据库

· 创建并管理表空间

· 创建并管理模式

· 创建并管理表

· 分区表

· 数据分布与分区

· 压缩存储与行列存储

· 序列、索引与视图

管理数据

· 插入、更新、删除记录

· 事务管理

· 空间回收和统计

9 数据加载

· 外部表加载

· COPY加载

· GPLOAD加载

10 资源负载管理

· 创建资源队列

· 分配资源队列

11 备份恢复

· 串行备份和恢复

· 并行恢复和恢复

12 GP SQL语法

· 数据字典

· 函数

· 存储过程

13 性能调优

· 常见性能问题

· 跟踪性能问题

· 查询调优

14 扩展GP系统

· 节点的准备和添加

· 初始化新Instance

· 重分布表

15 GP MapReduce

· MapReduce基础

· GP MapReduce编程

· MapReduce作业执行和故障诊断

 

 

第二部分 Hadoop分布式系统基础(30课时)

1 什么是Hadoop

· Hadoop思想起源:Google

· Hadoop的架构

· Hadoop思想体系

2 部署Hadoop集群

· 准备和配置环境

· 三种运行模式

· 简单集群安装和配置步骤

· 大型生产集群部署

3 HDFS实战

· HDFS体系结构

· HDFS的可靠性

· HDFS文件操作

4 Map-Reduce体系架构

· Map-Reduce编程模型

· 性能调优

· Map-Reduce工作机制

· 日志分析

5 Map-Reduce API开发实战

· Eclipse插件安装

· 数据筛选程序

· 倒排索引实战

6 Hadoop组成

· Pig, Hbase, Hive, Zookeeper组件

· Sqoop, Avro, Churkwa, Cassandra组件

· Hbase体系结构

7 HBase数据库

· 单机模式安装

· 伪分布式安装

· 完全分布模式安装

· HBase数据库操作

8 Pig实战

· Pig框架

· Pig安装配置

· Pig运行操作

9 Hive实战应用

· Hive组件与体系架构

· Hive安装配置

· Hive操作

10 Sqoop应用

· 安装配置

· 数据操作示例

11 云计算

· 什么是云计算

· 云计算模式和形态

· Hadoop在云计算的运用

12 Hadoop商业应用案例剖析

· 京东商城

· 百度

· 阿里巴巴

 

第三部分 Greenplum Hadoop大数据分析平台(4课时)

1 Greenplum Hadoop架构

· 集成架构的特征

· 集成架构的优势

· 商业案例展示

2 Greenplum Hadoop集群部署

· 部署Hadoop集群

· 部署Zookeeper

· 部署Hbase

· 部署Hive

· 部署Pig

· 集群操作示例