首页 > 代码库 > 【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂

【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂

Spark亚太研究院100期公益大讲堂 【第5期互动问答分享】

 Q1:spark怎样支持即席,应该不是spark sql吧,是hive on spark么?

         Spark1.0 以前支持即席查询的技术是Shark;

         Spark 1.0和 Spark 1.0.1支持的即席查询技术是Spark SQL;

         尚未发布的Spark 1.1开始 Spark SQL是即席查询的核心,我们期待Hive on Spark也能够支持即席查询;

 Q2:现在spark 1.0.0版本是支持hive on spark么,它支持cli交互式访问么?

         Spark1.0.0不支持hive on spark;

         hive on spark这个项目正在开发中,预计在 Spark 1.1版本的时候发布;

         Spark 1.0.0现在还不直接支持cli访问;

 Q3:spark sql和hbase怎么结合呢?

         Spark sql和hbase即可要借助于Spark core的RDD功能;

         使用hbase的时候需要导入hbase在Spark上的包

         Spark 1.0.0现在还不直接支持cli访问;

 Q4:sparkSql支持sql全吗?老师 可以把现在的PLSQL 直接转换为 SPARKSQL么? 

         Spark sql现在支持SQL-92的基本功能,后续版本不会不断增强;

         PLSQL 现在还不能够直接转为Spark SQL;

         想要更强的SQL支持,在Spark1.0.0和Spark1.0.1版本可以考虑Hive in Spark SQL的功能;

 Q5:如果支持hive on spark,那么什么时候用spark sql,什么时候用hive on spark?

         Hive on spark预计在Spark 1.1这个版本发布,核心功能是要在Spark上使用已有的Hive的一切数据和功能;

         和hive不相关都可以使用Spark SQL;

         从理论上讲随着Spark SQL在未来版本的不断增强,可以做hive的一切事情;

 Q6:Spark SQL可以使用group by 吗?

         Spark SQL可以使用group by的功能;

         在SchemaRDD中有group by的支持;

         groupBy(groupingExprs: Expression*)(aggregateExprs: Expression*): SchemaRDD

l   Performs a grouping followed by an aggregation.

 

Q7:spark sql 现在支持sql的那些操作  一直在官网上没能找到相应的document?

         Spark SQL API的官方Document网址

l   http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.SchemaRDD ;

         Spark SQL使用的官方网址

http://spark.apache.org/docs/latest/sql-programming-guide.html