通过案例对SparkStreaming 透彻理解三板斧之二：解密SparkStreaming运行机制

2019独角兽企业重金招聘Python工程师标准>>>

一：spark各个子框架的关系：

上节课我们采用了降维的方式查看了整个spark streaming的大概运行的过程，再次强调，spark streaming 其实是构建在spark core之上的一个应用程序，如果要构建一个强大的spark应用程序，spark streaming 是一个值得借鉴的参考，spark streaming涉及多个job交叉配合，里面涉及到了spark的所有的核心组件，如果对spark streaming 精通了的话，可以说就精通了整个spark,所以精通掌握spark streaming是至关重要的

spark 的各个子框架都是基于spark core的。spark streaming在内部的处理机制是接受实时流的数据，并根据一定的时间间隔分成一批一批的数据，然后通过spark engine处理这些批数据，最后得到处理后的一批一批的数据。

对应的批数据，在spark内核对应RDD，在spark streaming中对应DStream ，一个DStream相当于RDD的模板，对应一组RDD（RDD的一个序列）

通俗点理解的话，在数据分成一批一批后，通过一个队列，然后spark引擎从该队列中依次一个一个的取出批数据，把批数据封装成一个DStream,因为DStream是RDD的模板，是RDD的一个逻辑级别的抽象，所以实质上是把数据封装成为物理级别的RDD.

二：Spark Streaming基础概念理解：

为了更好的理解spark streaming，我们先简单的对相关概念理解一下

1 离散流：(Discretized Stream ,DStream):这是spark streaming对内部的持续的实时数据流的抽象描述，也即我们处理的一个实时数据流，在spark streaming中对应一个DStream

2 批数据：将实时流时间以时间为单位进行分批，将数据处理转化为时间片数据的批处理

3 时间片或者批处理时间间隔：逻辑级别的对数据进行定量的标准，以时间片作为拆分流数据的依据。

4 窗口长度：一个窗口覆盖的流数据的时间长度。比如说要每隔5分钟统计过去30分钟的数据，窗口长度为6，因为30分钟是batch interval 的6倍

5 滑动时间间隔：比如说要每隔5分钟统计过去30分钟的数据，窗口时间间隔为5分钟

6 input DStream :一个inputDStream是一个特殊的DStream 将spark streaming连接到一个外部数据源来读取数据。

7 Receiver :长时间（可能7*24小时）运行在Excutor之上，每个Receiver负责一个inuptDStream (比如读取一个kafka消息的输入流)。每个Receiver,加上inputDStream 会占用一个core/slot

重点来了！！！我们用时空维度和空间维度分别对DStream 和RDD来更加深入并且另类的理解spark streaming，以及二者之间的关系。

DStream 对应时空维度，空间加上时间（从目前来看，spark streaming的精妙之一是用时间来解耦合，是目前所见最好的解耦合的方式），RDD对应空间维度，整个sparkStreaming是时空维度。

纵轴为空间维度：代表的是RDD的依赖关系构成的具体的处理逻辑的步骤，是用DStream来表示的。

横轴为时间维度：按照特定的时间间隔不断地生成job对象，并在集群上运行。

随着时间的推移，基于DStream Graph 不断生成RDD Graph ,也即DAG的方式生成job,并通过Job Scheduler的线程池的方式提交给spark cluster不断的执行。（sparkStreaming只关注时间维度不关注空间维度）

由上可知，RDD 与 DStream的关系如下：

1.RDD是物理级别的，而 DStream 是逻辑级别的

2.DStream是RDD的封装类，是RDD进一步的抽象

3.DStream 是RDD的模板。DStream要依赖RDD进行具体的数据计算

（注意：纵轴维度需要RDD,DAG的生成模板，需要TimeLine的job控制器

横轴维度（时间维度）包含batch interval,窗口长度，窗口滑动时间等。）

4.inputStream和outputStream分别代表数据的输入和输出

5.具体的job运行在spark cluster之上，此时系统的容错就非常重要，而spark streaimg的容错非常巧妙，它巧妙的借用了spark core rdd的容错而容错。（RDD可以指定StorageLevel来实现存放多个副本用来做容错）

6.事务处理：数据一定会被处理，并且只会对数据处理一次，这个特性对于那些诸如计费系统的实现非常重要

转载于:https://my.oschina.net/u/1253652/blog/668698

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/109043.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

通过案例对SparkStreaming 透彻理解三板斧之二：解密SparkStreaming运行机制

相关推荐

numpy创建数组

Zynq 7020 学习心得【1】

Drupal 安装「建议收藏」

30个特色网站

光功率 博科交换机_博科光纤交换机zone划分命令方法「建议收藏」

智能避障小车_单片机智能小车程序

发表回复

光功率博科交换机_博科光纤交换机zone划分命令方法「建议收藏」