spark cli

2024-09-17 19:45:49 214人阅读

Spark SQL CLI

Spark1.1增加了Spark SQL CLI和ThriftServer

1、创建并配置hive-site.xml

在运行Spark SQL CLI中需要使用到Hive Metastore，故需要在Spark中添加其uris。具体方法是在SPARK_HOME/conf目录下创建hive-site.xml文件，然后在该配置文件中，添加hive.metastore.uris属性，具体如下：

<?xml version="1.0"?><configuration><property><name>hive.metastore.uris</name><value>thrift://m1:9083</value></property></configuration>

2、启动Hive

在使用Spark SQL CLI之前需要启动Hive Metastore（如果数据存放在HDFS文件系统，还需要启动Hadoop的HDFS），使用如下命令可以使Hive Metastore启动后运行在后台，可以通过jobs查询：

$nohup hive --service metastore > metastore.log 2>&1 &

3、启动spark cli

如果要连接spark集群，应该首先启动spark集群，此处连接spark集群，因此，如下启动spark集群

./sbin/start-all.sh

启动前建议调整log4j的日志级别，不然控制台输出内容过多，不利于观察。
具体修改方法如下：
1、进入spark conf目录下,重命名log4j.properties.template

mv log4j.properties.template log4j.properties

2、编辑log4j.properties，设置日志级别为ERROR

log4j.rootCategory=ERROR, console

启动cli

./bin/spark-sql --master spark://m1:7077 --executor-memory 512m

测试命令行：

show databases;

命令行启动成功后就可以对hive数据进行查询了

通过spark cli创建表，然后使用HQL进行操作

create table person ( id int, name string, age int )row format delimited fields terminated by ‘ ‘ ;

spark cli

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们