首页 > 代码库 > 【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂
【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Spark亚太研究院100期公益大讲堂 【第5期互动问答分享】
Q1:spark怎样支持即席,应该不是spark sql吧,是hive on spark么?
Spark1.0 以前支持即席查询的技术是Shark;
Spark 1.0和 Spark 1.0.1支持的即席查询技术是Spark SQL;
尚未发布的Spark 1.1开始 Spark SQL是即席查询的核心,我们期待Hive on Spark也能够支持即席查询;
Q2:现在spark 1.0.0版本是支持hive on spark么,它支持cli交互式访问么?
Spark1.0.0不支持hive on spark;
hive on spark这个项目正在开发中,预计在 Spark 1.1版本的时候发布;
Spark 1.0.0现在还不直接支持cli访问;
Q3:spark sql和hbase怎么结合呢?
Spark sql和hbase即可要借助于Spark core的RDD功能;
使用hbase的时候需要导入hbase在Spark上的包
Spark 1.0.0现在还不直接支持cli访问;
Q4:sparkSql支持sql全吗?老师 可以把现在的PLSQL 直接转换为 SPARKSQL么?
Spark sql现在支持SQL-92的基本功能,后续版本不会不断增强;
PLSQL 现在还不能够直接转为Spark SQL;
想要更强的SQL支持,在Spark1.0.0和Spark1.0.1版本可以考虑Hive in Spark SQL的功能;
Q5:如果支持hive on spark,那么什么时候用spark sql,什么时候用hive on spark?
Hive on spark预计在Spark 1.1这个版本发布,核心功能是要在Spark上使用已有的Hive的一切数据和功能;
和hive不相关都可以使用Spark SQL;
从理论上讲随着Spark SQL在未来版本的不断增强,可以做hive的一切事情;
Q6:Spark SQL可以使用group by 吗?
Spark SQL可以使用group by的功能;
在SchemaRDD中有group by的支持;
groupBy(groupingExprs: Expression*)(aggregateExprs: Expression*): SchemaRDD
l Performs a grouping followed by an aggregation.
Q7:spark sql 现在支持sql的那些操作 一直在官网上没能找到相应的document?
Spark SQL API的官方Document网址
l http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.SchemaRDD ;
Spark SQL使用的官方网址
http://spark.apache.org/docs/latest/sql-programming-guide.html