DataStream API 四 之 Flink DataStream编程
- 1.分布式流处理基本模型
- 2.流应用开发步骤
- 3.数据类型
- 4. Connector
- 5. Execution environment
- 6. 参数传递
- 7.配置并⾏度
- 8.Watermark
- 9.Checkpoint
- 10.State
- 11. Data Source
- 11.1
- 11.2 自定义Source
- 12.Transformations
- 13.Window
- 13.1窗⼝处理函数
- 13.2 window /区间 Join
- 13.3 Data Sink
1.分布式流处理基本模型
2.流应用开发步骤
3.数据类型
4. Connector
5. Execution environment
6. 参数传递
7.配置并⾏度
8.Watermark
9.Checkpoint
10.State
11. Data Source
11.1
11.2 自定义Source
- 实现SourceFunction接⼝
非并⾏化数据源 - 实现ParallelSourceFunction接⼝
并⾏数据源 - 实现RichParallelSourceFunction接⼝
RichParallelSourceFunction 会额外提供open和close⽅法,针对source中如果需要获取其他链接资源,那
么可以在open⽅法中获取资源链接,在close中关闭资源链接
12.Transformations
• Map 对每个元素进⾏⼀定的变换后,映射为另⼀个元素
• Flatmap 将元素摊平,每个元素可以变为0个、1个、或者多个元素
• Filter 筛选
• keyBy 逻辑上将Stream根据指定的Key进⾏分区,是根据key的散列值进⾏分区的
• reduce是归并操作,它可以将KeyedStream 转变为 DataStream
• fold给定⼀个初始值,将各个元素逐个归并计算。它将KeyedStream转变为DataStream
• union可以将多个流合并到⼀个流中,以便对合并的流进⾏统⼀处理。是对多个流的⽔平拼接
• Join:根据指定的Key将两个流进⾏关联。
• coGroup:关联两个流,关联不上的也保留下来
• Split:将⼀个流拆分为多个流时间进⾏聚合或者其他条件对KeyedStream进⾏分组
• window:按
12.2 Transformations(Operate Function)