Flink中,为什么要有 Watermark?
时间:2023-08-17 01:12:23来源:哔哩哔哩

为什么要有 Watermark?

当 flink 以 EventTime模式处理流数据时,它会根据数据里的时间戳来处理基于时间的算子。但是由于网络、分布式等原因,会导致数据乱序的情况。如下图所示:


【资料图】

Flink中的WaterMark

只要使用event time,就必须使用watermark,在上游指定,比如:source、map算子后

基本概念

Watermark的核心本质可以理解成一个延迟触发机制

我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络背压等原因,导致乱序的产生,所谓乱序,就是指Flink接收到的事件的先后顺序不是严格按照事件的Event Time顺序排列的

我们来设想一下下面这个场景:

使用时间窗口来统计10分钟内的用户流量

有一个时间窗口

开始时间为:2017-03-19 10:00:00

结束时间为:2017-03-19 10:10:00

有一个数据,因为网络延迟

事件发生的时间为:2017-03-19 10:10:00

但进入到窗口的时间为:2017-03-19 10:10:02,延迟了2秒中

时间窗口并没有将59这个数据计算进来,导致数据统计不正确

根据窗口计算时间的不同,这个数据都会被遗漏,只是:

如果按照处理时间来计算,这个窗口在系统时间大于2017-03-19 10:10:00的时候就会关闭,延迟进来的这个59会被忽略

如果按照事件时间来计算,这个窗口当进入一条数据,其事件时间大于2017-03-19 10:10:00的时候,会导致窗口关闭,同样因为这个59延迟了,会因为别的正常顺序的数据进入Flink而导致属于它的窗口被提前关闭

也就是:

处理时间窗口,按照当前系统时间来判断进行窗口关闭

事件时间窗口,按照进入数据的事件时间来判断是否关闭窗口,如果进来的一条新数据是下一个窗口的数据,那么会关闭上一个窗口

总结:

watermark是水印,也称水位线。用来测量事件时间的进度。

watermark作为数据流中的一部分在流动,并且携带一个时间戳t。

watermark(t) 表示这个流里面事件时间已经到了时间t,意味着流中不应该存在时间戳t2<=t的数据。

触发窗口等的计算、关闭

单调递增的(时间不能倒退)

用来处理数据乱序的问题

标签:

最新
  • Flink中,为什么要有 Watermark?

    为什么要有Watermark?当flink以EventTime模式处理流数据时,它会根据

  • 原神冰雾花花朵怎么采集(原神冰雾花花朵如何采集)

    1、冰雾花是地图上冰冻的花,璃月、蒙德地图都有大量分布,望风山地附

  • 贵州榕江全国美食足球友谊赛要预约吗?

    贵州榕江全国美食足球友谊赛要预约吗?需要预约!8月13日,贵州榕江全

  • 重大新闻!

    8月15日电,印度将从8月15日起,将原油暴利税从每吨4250卢比上调至7100

  • 维力医疗:医疗反腐对公司发展和行业集中度提升有一定帮助 暂无SPD业务涉及

    维力医疗8月14日在互动平台称,医疗反腐未来对于公司的高质量发展和行

  • 她曾是美女主持人,和老公认识5天闪婚,为爱离职如今成这样

    大家肯定对央视主持人非常熟悉吧,咱们今天就给大家讲讲曾经是央视大美

  • 辽宁暴雨致辽东沿海部分河流水位上涨

    新华社沈阳8月13日电(记者洪可润、丁非白)8月12日8时至13日17时,辽宁中

  • 罗技推出"Casa Pop-Up Desk"笔记本办公套件

    罗技公司于8月10日推出一款名为CasaPop-UpDesk的笔记本办公套件,该套

  • 卫浴什么时候安装合适 卫浴什么时候安装最好

    房子装修设计中,需要注意工序步骤的前后顺序,不然会影响整体呈现的效

  • 中南大学教育关爱暑期社会实践正式授牌开营

    红网时刻8月3日讯(通讯员邓逸轩黄欣)为进一步加强对留守儿童等青少年

  • 工人日报e网评丨榜样不止于胜负,“玫瑰”请继续铿锵

    龚先生“我们不是一个特别好的榜样,还是希望未来的孩子们能够踢出更精

  • 广汽集团下半年将加推多款新品

    中新网广东新闻8月3日电(记者方伟彬王华)记者3日从广汽集团获悉,下半

  • 益方生物:与正大天晴签署许可与合作协议

    2023年8月3日,益方生物(688382 SH)公告,与正大天晴签署许可与合作协

  • 新华全媒+|这张图,让你看懂“中国高铁”如何崛起!

    8月1日,我国第一条设计时速350公里的高铁——京津城际迎来运营满15周

  • 公共法律服务“大篷车”开进军营

    长江日报大武汉客户端8月1日讯为进一步增强广大部队官兵法治意识,提高

  • 宏景科技:公司主要为智慧城市的综合服务商 具备多行业智慧城市服务的全面资质和丰富经验

    每经AI快讯,有投资者在投资者互动平台提问:您好,公司作为智慧城市综

  • 旅游
    • 今日热闻!莫名其妙的角色动机,强行升华主题

    • 华泰车险保险可靠吗_华泰汽车保险可靠吗

    • 印花税怎么计算?印花税是按销售收入交税的吗

    • IMF官员警告:美国一手造成全球抛弃美元,人民币影响力在提升?|每日观点