Transformer 在时间序列预测中的应用

2017年，Google的一篇 Attention Is All You Need 为我们带来了Transformer，其在NLP领域的重大成功展示了它对时序数据的强大建模能力，自然有人想要把Transformer应用到时序数据预测上。在Transformer的基础上构建时序预测能力可以突破以往的诸多限制，最明显的一个增益点是，Transformer for TS可以基于Multi-head Attention结构具备同时建模长期和短期时序特征的能力。

本文将要介绍的一个充分利用了Transformer的优势，并在Transformer的基础上改进了Attention的计算方式以适应时序数据，同时提出了一种解决Transformer拓展性差问题的算法：ConvTrans。论文来源于NeurIPS 2019的一篇文章，作者给出了基于PyTorch的具体实现。

论文来源：NeurIPS 2019

论文地址：https://arxiv.org/abs/1907.00235

论文源码：https://github.com/mlpotter/Transformer_Time_Series

干货推荐

深度盘点：机器学习这6套技术资料真香啊
比 PyTorch 的官方文档还香啊，吃透PyTorch中文版来了
赶快收藏，PyTorch 常用代码段PDF合辑版来了

概述

一般来说，谈及DL领域时序预测，首先大家会想到RNN类的模型，但RNN在网络加深时存在梯度消失和梯度爆炸问题。即使是后续的LSTM，在捕捉长期依赖上依然力不从心。再后面有了Amazon提出的DeepAR，是一种针对大量相关时间序列统一建模的预测算法，该算法使用递归神经网络 (RNN) 结合自回归(AR) 来预测标量时间序列，在大量时间序列上训练自回归递归网络模型，并通过预测目标在序列每个时间步上取值的概率分布来完成预测任务。

ConvTrans

ConvTrans, 其实它与DeepAR有很多相似的地方，比如它也是一个自回归的概率预测模型，对于下一步预测采用分位数p10（分位数就是以概率将一批数据进行分割，比如 p10=a 代表一批数据中小于a的数占总数的10%）、 p50等；再比如ConvTrans也支持协变量预测，可以接受输入比如气温、事件、个体标识等等其他相关变量来辅助预测。

不同的是ConvTrans具备Transformer架构独有的优势，大致为以下四点：

支持并行，训练得更快。基于RNN的模型中每一个隐状态都依赖于它前一步的隐状态，因此必须从前向后必须逐个计算，每一次都只能前进一步。而Transformer没有这样的约束，输入的序列被并行处理，由此带来更快的训练速度。
更强的长期依赖建模能力，在长序列上效果更好。在前面提到过，基于RNN的方法面对长序列时无法完全消除梯度消失和梯度爆炸的问题，而Transformer架构则可以解决这个问题
Transformer可以同时建模长期依赖和短期依赖。Multi-head Attention中不同的head可以关注不同的模式。
Transformer的AttentionScore可以提供一定的可解释性。通过可视化AttentionScore可以看到当前预测对历史值注意力的分布。

当然Transformer for TS的架构也有相应的缺点：

是基于序列的编解码结构（seq2seq），编码器和解码器均采用基于自注意力机制的网络，所以计算空间复杂度大，需要处理序列的编解码。
原始Transformer的自注意力计算方法对局部信息不敏感，使得模型易受异常点影响，带来了潜在的优化问题。

而2019NeurIPS的论文针对这些缺点做了相应的2点改进：

Convolutional Self-Attention ：针对时序数据预测任务的特点，增强对局部上下文信息的关注，使预测更精准。
LogSparse ：解决了Attention计算空间复杂度太高的问题，使模型能处理更长的时间序列数据。

后面会详细展开说明

算法模型

01、Convolutional Self-Attention

原始Transformer中的Self-Attention结构如下:

而论文中设计的Convolutional Self-Attention更适合时序数据，因为它能够增强模型对时间序列中局部上下文信息的建模能力，从而降低异常点对预测结果的影响程度，提高预测准确性。这也是ConvTrans（Convolution Transformer）的名称由来。

Self-Attention中的计算 Q、K、V 的过程可能导致数据的关注点出现异常，如上图中（a）所示，由于之前的注意力得分仅仅是单时间点之间关联的体现，（a）中中间的红点只关注到与它值相近的另一单时间红点，而没有考虑到自身上下文（即变化趋势）。即希望增强局部上下文的建模能力，得到图（c）中的效果。

作者们提出的改进方法是在计算 Query 和 Key 时采用大小大于1（等于1就是原始Transformer）的卷积核来进行卷积操作，如图中（d）所示，从而实现使注意力关注局部上下文，使得更相关的特征能够得到匹配。

观察下图，对比应用不同大小卷积核的模型实现，Convolutional Self-Attention能够更快地拟合，且取得更低的训练损失。图中k代表卷积核大小，下角标1d代表预测未来一天

并且文中还给出了基于真实世界数据的具体结果对比，来说明k对模型预测准确率的影响：

由于电力数据集相对简单且协变量提供了丰富的信息，改变k值对模型的提升并不明显。但在更加复杂的交通数据集中，更大的k较明显地提升了模型的预测准确度，进一步验证了增强局部信息的必要性。目前k值的设置需要在实践中权衡。

02、LogSparse Transformer

针对Transformer的存储瓶颈问题，文中引入了LogSparse机制，那么具体是个啥呢？

我们先来看一下原始Transformer在交通数据集上训练学习得到的注意力得分分布情况：

可以看到该模型共10层，图中蓝色、青色、红色的线分别是第2，6，10层的注意力得分，灰色的线为原始数据。

我们注意到：不同层对不同频率信息的关注度不同

第2层（蓝色）倾向于学习每一天的模式
第6层（青色）则更关注周末的影响
而第10层（红色）对最近的时刻（邻近预测点）关注较高。

论文作者们认为引入某种程度的稀疏性，不会显著影响性能，反而为模型带来了处理具备细粒度和强长期依赖的长时间序列的能力。为了使得最终每个点都能接触到它的所有历史值的信息，所以便提出了LogSparse的设计，通过堆叠多个自注意力层来实现这个目的，如下图所示：

设为单元l在第k 至 k+1 层计算时要访问的单元的索引的集合。在标准的Transformer中，这表示每一个单元都要访问所有的历史单元以及它自己（如图a所示），那么这样空间复杂度为，L是序列长度。

如果采用堆叠多层的方式，

如图b所示，每一层的空间复杂度就降低到了 , 整体空间复杂度就是 ,解决了Transformer的可扩展性瓶颈。另外作者还提出了一些其他的稀疏性策略, 具体可以参考原论文。

对比在不同限制条件下的预测效果，可以看出LogSparse在更复杂的交通数据集上对模型提升效果更明显，也说明了长期依赖的重要性。

效果对比

‍‍‍‍

原论文在真实数据集上进行了训练评估，并与ARIMA，TRMF以及DeepAR等模型进行了对比实验。

对比的基线模型：

ARIMA：将自回归（AR）的算子加上移动平均（MA），就是 ARIMA 算法。回归能够反映数据的周期性规律，和移动平均形成互补，从统计学的角度可以很好的预测一元与时间强相关场景下的时间序列。
TRMF：矩阵分解方法。
DeepAR：基于LSTM的自回归概率预测方法。
DeepState: 基于RNN的状态空间方法。