环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

首页 > 代码库 > 环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

2024-08-23 05:52:45 222人阅读

一、前言

以下简介摘自官方

Hadoop简介

Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等.接下来我们使用的是Hive

Hive简介

Hive 是一个基于 Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用 HQL （类 SQL ）语言对这些数据进行自动化管理和处理。我们可以把 Hive 中海量结构化数据看成一个个的表，而实际上这些数据是分布式存储在 HDFS 中的。 Hive 经过对语句进行解析和转换，最终生成一系列基于 hadoop 的 map/reduce 任务，通过执行这些任务完成数据处理。

Presto简介

Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Presto支持在线数据查询，包括Hive, Cassandra, 关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并，可以跨越整个组织进行分析。

二、环境准备

Hadoop2.X

apache-hive-2.1.0

presto-server-0.156.tar.gz

Mysql5.7

三、速度测试

技术分享

摘自http://blog.csdn.net/joomlaer/article/details/45889759

四、本机服务器准备

虚拟机使用linux的centos

Hadoop 192.168.209.142,192.168.209.140

hive 192.168.209.140

presto 192.168.209.140

mysql 10.0.0.7

五、环境搭建

1.Hadoop环境搭建<略>

2.Hive环境搭建

解压Hive文件

[root@HDP134 ~]# tar -zxvf /home/hive/apache-hive-2.1.0-bin.tar.gz

配置hive

[root@HDP134 ~]# vi /etc/profile

因为HIVE用到了Hadoop需要在最下边加上hadoop和Hive的路径

#Hadoop

export HADOOP_INSTALL=/opt/hadoop

export PATH=$PATH:$HADOOP_INSTALL/bin

export HADOOP_HOME=$HADOOP_INSTALL

#Hive

export HIVE_HOME=/home/hive/apache-hive-2.1.0-bin

export PATH=$PATH:$HIVE_HOME/bin

保存退出之后进入配置文件，复制并生命名hive-env.sh,hive-site.xml

[root@HDP134 ~]# cd /home/hive/apache-hive-2.1.0-bin/conf

[root@HDP134 ~]# cp hive-env.sh.template hive-env.sh

[root@HDP134 ~]# cp hive-default.xml.template hive-site.xml

配置hive-site.xml

替换hive-site.xml文件中的 ${system:java.io.tmpdir} 和 ${system:user.name}

技术分享

默认情况下, Hive的元数据保存在了内嵌的 derby 数据库里, 但一般情况下生产环境使用 MySQL 来存放 Hive 元数据。

继续修改Hive-site.xml配置Mysql

<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8&useSSL=false</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>hive</value> </property>

保存退出

由于Hive要使用Hadoop，所以以下所有操作均是在hadoop用户下操作先为Hadoop赋值目录权限使用如下命令

chown -R hadoop:hadoop /home/hive

切换用户

技术分享