Simple and Effective Text Matching with Richer Alignment Features

论文提出了一种快速且高效的文本匹配模型，建议保留三个可用于序列间对齐的关键特征：原始点对齐特征、先前对齐特征和上下文特征。
模型结构（只给出一半）：
在这里插入图片描述
虚线框起来的作为一个模块（block）
嵌入层+编码层，池化层
嵌入层采用GLOVE的word embedding，编码层采用一维卷积神经网络，池化层采用max-over-time pooling 操作（最大池化）。
Augmented Residual Connections
一种增强版的残差连接，首先，对于n个模块的输入为 $X^{(n)} = (x_1^{n}, x_2^{n},\dots,x_l^{n})$ ，输出为 $O^{(n)} = (o_1^{n}, o_2^{n},\dots,o_l^{n})$ ,其中 $l$ 表示输入序列的长度。
对于第一个模块的输入为嵌入向量，此外，令 $O^{(0)}$ 为一个零向量矩阵。那么对于n≥2的第n个模块，其输入为 $x_i^{n}=[x_i^{1};o_i^{n-1}+o_i^{n-2}]$ ，其中;表示cat拼接。
在增强残差连接的情况下，Alignment Layer和fusion layer的输入分为三部分：原始点特征（嵌入向量）、先前模块的对齐特征（残差特征）和上下文特征。
Alignment Layer
对齐层：对两个序列作token上的对齐。
令 $(a_1, a_2,\dots,a_l)$ ， $(b_1, b_2,\dots,b_l)$
那么 $a_i$ 和 $b_j$ 之间的相似度得分为 $e_{ij}$ ，即：
在这里插入图片描述
其中F为单一函数或单层前馈层。那么对齐层的输出为：
Fusion Layer
融合层利用三个角度来比较局部和对齐表示，然后将其融合在一起。其计算方式为：

其中所有的G为单层前馈层。b与a运算一致
Prediction Layer
在池化层利用最大池化得到句子a和b对应的两个向量： $v_1$ 和 $v_2$ 。然后其预测方式为：