首页 > 代码库 > 《大数据技术原理与应用》学习
《大数据技术原理与应用》学习
http://study.163.com/course/courseMain.htm?courseId=1002887002
先看了11章Spark
逻辑回归,需要迭代多,所以尤其适用Spark,100多倍
企业的应用:
1. 批量数据处理(数分钟与数小时,ETL),比如MapReduce
2. 基于历史数据的交互查询,比如Impala,Hive还不是
3. 实时数据流处理,比如Storm。比如返利的实时数据,以前通过数据库备库方式来处理,扩展性差。
而Spark提供了一站式解决。
一句话概括RDD,分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
《大数据技术原理与应用》学习
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。