好!就用上面这个栗子来聊一下,红色方框中的是上游的DStream,泛型为<WaterSensor>是个JavaBean,我们调用DStream的assignTimestampsAndWatermarks()方法来声明这个DStream中的WaterMark,该方法需要的参数是WatermarkStrategy(水印策略)类型的,所以我们直接用如图红色横线表明的方法,来声明一个单调递增的WaterMark,至于这个绿色方框的地方,因为这个forMonotonousTimestamps()方法在源码中我们可以发现它是个泛型方法,所以要在前面写明泛型!

最后就是在绿色横线这里我们用匿名内部类实现了一个好像是叫序列化时间戳声明器的一个接口(英文水平有限)
在这个匿名内部类中,实现了一个方法,返回的long类型就是事件时间的值,在上图中,也就是我把ts这个属性的值赋值给了事件时间

-------也可以说是赋值给了WaterMark,但是据我所知源码中应该是有减1这个概念,因为窗口时间涉及到左闭右开,但是这么去理解,问题也不大

这个是需要实现的方法的源码解释,表明返回的时间戳是独立于任何一个时区和日期的.这是专属于你这个程序的时间逻辑

2.支持乱序的WaterMark

这时候就有小朋友要问了:你这WaterMark刚刚不是说只能不变或者增大吗,这怎么还乱序了??

首先我们可以看到除了红色框中的代码,其他地方几乎一摸一样.

红色框中的就是另一种WatermarkStrategy,参数传入的是三秒,也就是允许三秒的乱序

举个栗子,原来的窗口时间为[0,5),也就是WaterMark到了5,这个窗口就会被关闭.但是设置了三秒的乱序时间之后,直到WaterMark达到5+3时,该窗口才会被关闭.

那么这个乱序时间在开发中应该怎么去设置?设置大了容易同时维护过多窗口影响性能,设置小了会达不到预期效果.
所以就还是一句老话,"有经验的人告诉我"
或者就是试运行一段时间,拿出能满足所有数据都被对应窗口接收的乱序时间作为参数.

3.自定义WatermarkStrategy

自定义WaterMark策略有两种路线,一种是周期型的,一种是间歇型的.

对应着源码可以看出来,如果你想用间歇型生成WaterMark的话,就在onEvent里书写代码,反之也一样

周期型的是默认200ms生成一次,这是写在源码里的间歇型是一条event执行一次

所以有以下结论

周期型适合短时间处理多条event

间歇型适合长时间处理少量event

其他

当程序开始时,WaterMark会被设置为Long的最小值,以保证它不会丢数据

当程序关闭时,WaterMark会被设置为Long的最大值,以保证它大到足以关闭所有已经开启的窗口

多并行度下WaterMark的传递

WaterMark是随着流在程序中流动的,有以下三条结论需要知道

1.多并行度的条件下,向下游传递WaterMark的时候是以广播的方式传递的

2.总是以最小的那个WaterMark为准(木桶原理)

3.当watermark值没有增长的时候不会向下游传递

(完)

若有不足,欢迎指正

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

big data 大数据

二维码

)">

Mysql数据同步到Elasticsearch

< <上一篇

Hive：数据进行替换切分后的结果保存为新表，新表进行分词

下一篇>>

搜索内容

Flink 事件时间EventTime及水印WaterMark

基本概念

时间语义

事件时间

WaterMark的几种类型

1.单调递增的WaterMark

2.支持乱序的WaterMark

3.自定义WatermarkStrategy

其他

多并行度下WaterMark的传递

最新文章

分类

标签云