<span>准备数据集用于flink学习</span>

内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；

在学习和开发flink的过程中，经常需要准备数据集用来验证我们的程序，阿里云天池公开数据集中有一份淘宝用户行为数据集，稍作处理后即可用于flink学习；

下载地址：
https://tianchi.aliyun.com/dataset/dataDetail?spm=a2c4e.11153940.0.0.671a1345nJ9dRR&dataId=649
如下图所示，点击红框中的图标下载(名为UserBehavior.csv.zip的文件太大无法在excel打开，因此下载体积小一些的UserBehavior.csv)：
该CSV文件的内容，一共有五列，每列的含义如下表：

为了便于检查数据，接下来在时间戳字段之后新增一个字段，内容是将该行的时间戳转成时间字符串

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

！！！有个问题要格外注意！！！：上述表达式中，由于8*3600的作用，得到的时间字符串实际上是东八区时区的时间，在flink sql中，如果用DATE_FORMAT函数计算timestamp也能得到时间字符串，但是这个字符串是格林尼治时区，此时两个时间字符串的值就不同了，例如从F列看2017/11/12和2017/11/13各一条记录，但是DATE_FORMAT函数计算timestamp得到的却是2017/11/12有两条记录，解决这个问题的办法就是将表达式中的8*3600去掉，大家都用格林尼治时区；
表达式生效后，F1的内容就是E1的时间字符串，接下来F列的所有记录都作转换，鼠标放在下图红框位置时，会出现十字架标志，在此标志上双击鼠标：

在这里插入图片描述
5. 完成后如下图，F列的时间信息更利于我们开发过程中核对数据：

在这里插入图片描述

此时的CSV文件中的数据并不是按时间字段排序的，如下图：
flink在处理上述数据时，由于乱序问题可能会导致计算结果不准，以上图为例，在处理红框2中的数据时，红框3所对应的窗口早就完成计算了，虽然flink的watermark可以容忍一定程度的乱序，但是必须将容忍时间调整为7天才能将红框3的窗口保留下来不触发，这样的watermark调整会导致大量数据无法计算，因此，需要将此CSV的数据按照时间排序再拿来使用；
如下图操作即可完成排序：