从零自学Hadoop(23)：Impala介绍及安装

首页 > 代码库 > 从零自学Hadoop(23)：Impala介绍及安装

从零自学Hadoop(23)：Impala介绍及安装

2024-09-28 10:04:02 217人阅读

阅读目录

序
介绍
安装
系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

序

上一篇，我们讲述了HBase的协处理器。
　下面我们开始介绍Impala的介绍及安装。

介绍

一：定义
　　Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。和Hive相比，速度快了个数量级，具有非常好的交互式SQL执行。
三：架构
　
Impala Daemon
　　是Impala的核心进程，进程名叫做：impalad，运行在所有的数据节点上，可以读写数据，并接收客户端的查询请求，并行执行来自集群中其他节点的查询请求，将中间结果返回给调度节点。调用节点将结果返回给客户端。
Impala Statestore
　　状态管理进程，定时检查The Impala Daemon的健康状况，协调各个运行impalad的实例之间的信息关系，Impala正是通过这些信息去定位查询请求所要的数据，进程名叫做 statestored，在集群中只需要启动一个这样的进程，如果Impala节点由于物理原因、网络原因、软件原因或者其他原因而下线，Statestore会通知其他节点，避免查询任务分发到不可用的节点上。
Impala Catalog Service
　　元数据管理服务，进程名叫做 catalogd，将数据表变化的信息分发给各个进程。

安装

一：新增服务
　　
二：勾选Impala
　　
三：分配服务
　　
　　
四：存储配置
　　
五：添加服务进行中
　　

六：添加完成
　　

　　

　　
--------------------------------------------------------------------
　　到此，本章节的内容讲述完毕。