首页 > 代码库 > Hadoop分布式平台的大数据解决方案
Hadoop分布式平台的大数据解决方案
Hadoop分布式平台的大数据解决方案
讲师:迪伦
对这个课程有兴趣的可以加我qq2059055336联系我
1 课程背景
GREENPLUM适用场景
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。
GREENPLUM运行的平台
GREENPLUM运行在X86架构的硬件平台上,目前支持的操作系统包括32/64位的 LINUX(REDHAT/SUSE)/SOLARIS/MAC OS
GREENPLUM的前景
GREENPLUM 诞生于2003年硅谷,2010/07 EMC收购了GREENPLUM,并把GREENPLUM作为EMC面向分析云的战略核心产品,加以大力发展。该产品不仅在国际市场发展很快,在国内市场发展也很快。最著名的案例就是阿里巴巴集团,经过多种产品的精心选型,最终选择GREENPLUM作为它们的数据仓库平台存放数百TB的业务数据去高效支持各种分析应用。正是由于产品发展速度很快,但是在相关人才上存在很大缺口。
Hadoop的前景
随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。
Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万。
一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!
Greenplum Hadoop大数据分析平台
大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum之后,推出的针对Hadoop的Greenplum的数据库软件。采用Greenplum HD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。
2课程内容简介
本系列课程主要分三部分:(总共70讲左右)
第一部分 Greenplum 分布式数据库基础(35课时)
第二部分 Hadoop分布式系统基础(30课时)
第三部分 Greenplum Hadoop大数据分析平台(4课时)
适合对象:
1、要求具有一定的Linux和Java基础
2、要求具有一定SQL语言基础
3课程大纲
第一部分 Greenplum 分布式数据库基础(35课时)
1 Greenplum架构
· 什么是Greenplum
· Greenplum体系结构
· Greenplum高可用性架构
2 安装Greenplum
· 配置环境
· 安装并初始化GPDB系统
· 启停数据库
· 配置GP系统
3 客户端接口和程序
· pgAdmin III
· PSQL
4 角色权限管理
· 客户端认证
· 管理用户和组
5 分布式数据库存储
· 数据是如何存储的
· 分布策略
6 GBDB查询处理
· 查询命令的执行
· SQL查询处理机制
· 并行查询计划
7 定义数据库对象
· 创建并管理数据库
· 创建并管理表空间
· 创建并管理模式
· 创建并管理表
· 分区表
· 数据分布与分区
· 压缩存储与行列存储
· 序列、索引与视图
8 管理数据
· 插入、更新、删除记录
· 事务管理
· 空间回收和统计
9 数据加载
· 外部表加载
· COPY加载
· GPLOAD加载
10 资源负载管理
· 创建资源队列
· 分配资源队列
11 备份恢复
· 串行备份和恢复
· 并行恢复和恢复
12 GP SQL语法
· 数据字典
· 函数
· 存储过程
13 性能调优
· 常见性能问题
· 跟踪性能问题
· 查询调优
14 扩展GP系统
· 节点的准备和添加
· 初始化新Instance
· 重分布表
15 GP MapReduce
· MapReduce基础
· GP MapReduce编程
· MapReduce作业执行和故障诊断
第二部分 Hadoop分布式系统基础(30课时)
1 什么是Hadoop
· Hadoop思想起源:Google
· Hadoop的架构
· Hadoop思想体系
2 部署Hadoop集群
· 准备和配置环境
· 三种运行模式
· 简单集群安装和配置步骤
· 大型生产集群部署
3 HDFS实战
· HDFS体系结构
· HDFS的可靠性
· HDFS文件操作
4 Map-Reduce体系架构
· Map-Reduce编程模型
· 性能调优
· Map-Reduce工作机制
· 日志分析
5 Map-Reduce API开发实战
· Eclipse插件安装
· 数据筛选程序
· 倒排索引实战
6 Hadoop组成
· Pig, Hbase, Hive, Zookeeper组件
· Sqoop, Avro, Churkwa, Cassandra组件
· Hbase体系结构
7 HBase数据库
· 单机模式安装
· 伪分布式安装
· 完全分布模式安装
· HBase数据库操作
8 Pig实战
· Pig框架
· Pig安装配置
· Pig运行操作
9 Hive实战应用
· Hive组件与体系架构
· Hive安装配置
· Hive操作
10 Sqoop应用
· 安装配置
· 数据操作示例
11 云计算
· 什么是云计算
· 云计算模式和形态
· Hadoop在云计算的运用
12 Hadoop商业应用案例剖析
· 京东商城
· 百度
· 阿里巴巴
第三部分 Greenplum Hadoop大数据分析平台(4课时)
1 Greenplum Hadoop架构
· 集成架构的特征
· 集成架构的优势
· 商业案例展示
2 Greenplum Hadoop集群部署
· 部署Hadoop集群
· 部署Zookeeper
· 部署Hbase
· 部署Hive
· 部署Pig
· 集群操作示例