SparkStreaming（源码阅读十二）

首页 > 代码库 > SparkStreaming（源码阅读十二）

SparkStreaming（源码阅读十二）

2024-08-26 08:32:51 221人阅读

　　要完整去学习spark源码是一件非常不容易的事情，但是咱可以积少成多嘛~那么，Spark Streaming是怎么搞的呢？

　　本质上，SparkStreaming接收实时输入数据流并将它们按批次划分，然后交给Spark引擎处理生成按照批次划分的结果流：

　　技术分享

　　SparkStreaming提供了表示连续数据流的、高度抽象的被称为离散流的Dstream,可以使用kafka、Flume和Kiness这些数据源的输入数据流创建Dstream,也可以在其他Dstream上使用map、reduce、join、window等操作创建Dsteram。Dstream本质上呢，是表示RDD的序列。

　　Spark Streaming首先将数据切分为一定时间范围(Duration)的数据集，然后积累一批(Batch)Duration数据集后单独启动一个任务线程处理。Spark核心提供的从DAG重新调度任务和并行执行，能够快速完成数据从故障中恢复的工作。

　　那么下来就从SparkStreaming 的StreamingContext初始化开始：

SparkStreaming（源码阅读十二）

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > SparkStreaming（源码阅读十二）

SparkStreaming（源码阅读十二）

看完仍有疑问？有类似问题直接问程序猿