首页 > 代码库 > Spark读取HBase

Spark读取HBase

背景:公司有些业务需求是存储在HBase上的,总是有业务人员找我要各种数据,所以想直接用Spark( shell) 加载到RDD进行计算

摘要:

  1.相关环境

  2.代码例子

内容

1.相关环境

  Spark 版本:2.0.0

  Hadoop 版本:2.4.0

  HBase 版本:0.98.6

  注:使用CDH5搭建集群

  编写提交脚本

export SPARK2_HOME=/var/lib/hadoop-hdfs/spark-2.0.0-bin-hadoop2.4

export HBASE_LIB_HOME=/opt/cloudera/parcels/CDH/lib/hbase
$SPARK2_HOME/bin/spark-shell \
--jars $HBASE_LIB_HOME/hbase-common-0.98.6-cdh5.3.2.jar,$HBASE_LIB_HOME/hbase-client-0.98.6-cdh5.3.2.jar,$HBASE_LIB_HOME/hbase-protocol-0.98.6-cdh5.3.2.jar,\
$HBASE_LIB_HOME/hbase-server-0.98.6-cdh5.3.2.jar,$HBASE_LIB_HOME/lib/htrace-core-2.04.jar

2.代码例子

  pom添加HBase依赖:https://github.com/Tongzhenguo/my_scala_code/blob/master/pom.xml

  编写Spark Driver Application 类:https://github.com/Tongzhenguo/my_scala_code/blob/master/src/main/scala/utils/HBaseSparkReadUtils.scala

 

Spark读取HBase