Predicting transcription factor binding sites using DNA shape features based on shared hybrid deep learning architecture

数据：https://github.com/wangguoguoa/CRPTS

表S1: Tables S1

表S2：S2

表S3：Table S3

1 文章概述

2 引言

3 数据

4 方法

1 共享混合深度学习

2 模型构建

3特征提取模块

5 结果

1性能评估

2 识别和可视化TFs模型

3 准确性比较和分析

1 文章概述

转录调控的研究在分子生物学研究中仍然是困难而基本的。最近的研究表明，核苷酸的双螺旋结构在提高转录因子结合位点的准确性和可解释性方面起着重要作用。本文提出了一种混合卷积递归神经网络(CNN/RNN)结构，通过结合DNA序列和DNA形状特征来预测TFBSs。我们提出的CRPTS可以捕获DNA序列的局部结构信息，而不完全依赖DNA形状数据。在通用蛋白结合微阵列(uPBMs)衍生的66个体外数据集上的一系列综合实验表明，我们提出的方法CRPTS明显优于最先进的方法。

2 引言

蛋白质-脱氧核糖核酸相互作用在基因转录、剪接、翻译和降解的调节中起着重要作用。DNA上的TF结合位点(TFBSs)是位于基因调控区的短序列，通常在几个到大约20个碱基对(bp)的范围内，不同基因上一个TF的结合区通常是保守的。当给定一个输入的脱氧核糖核酸序列时，对特定的转录因子是否有结合位点进行分类是生物信息学的核心任务。转录因子BSs的鉴定，也称为基序发现(MD)问题，通常被定义为从给定的一组DNA序列中寻找相似的子序列。随着高通量测序技术的快速发展，蛋白质结合微阵列(PBMs)提供了大量的体外实验数据，这是非常重要的，因为我们袖手旁观的可靠性数据，并提供了改进TF结合特异性表达和结合位点发现的计算方法的可能性。然而，考虑到核苷酸之间的依赖性，kmer-SVM和gapped k-mer已经相继基于k-mer特征被提出。 DL（深度学习）实现了前所未有的基于大规模染色质免疫沉淀测序(ChIP-seq)数据集的捕获基序模式和阐明复杂调节机制的性能。

基于DL的原始DNA序列预测TFBSs。一些开创性的研究提出了这样一个想法，即卷积神经网络(CNN)可以应用于基因组学，这依赖于CNN在计算机视觉中的基本构建模块。

虽然这些DL方法取得了很大的成就，但仍然存在一些缺点，忽略了DNA是一种复杂的三维大分子。由于在DNA结构阐明方面的进展，四个不同的DNA形状特征，包括小凹槽宽度(MGW)、螺旋桨扭曲(ProT)、螺旋扭曲(HelT)和滚动，可以通过蒙特卡罗(MC)模拟从DNA序列中计算得出。最近的研究表明，添加DNA形状在模拟和预测TF-DNA结合亲和力方面起着重要作用，其采用了传为了解释DNA结构的复杂性，在随后的研究中扩展了13个特征，包括六个bp内参数、六个bp间参数和一个MGW.34这些数据为预测TFBS和捕获更多影响TF结合的特征提供了前所未有的机会。统的机器学习方法。

值得注意的是，提出了一种基于DL的序列+形状框架(DLBSS)，该框架使用共享的CNN从DNA序列及其对应的DNA形状特征中找到共同的模式。尽管DL模型或传统方法通过添加DNA形状来识别TFBSs表现良好，但提出有效方法来提高捕获序列特异性基序和预测与基因组DNA的特异性TF结合的性能的能力仍然是一个挑战

3 数据

脱氧核苷酸序列和四种情况特征，输入DNA序列用热编码转换成矩阵，防止过拟合和准确性，对66个体外数据集的每一个使用5倍交叉验证来测量CRPTS的性能。

4 方法

1 共享混合深度学习

尽管有许多计算方法来识别tfb，但它仍然是研究界的一个主要挑战。最近的研究表明，脱氧核糖核酸形状特征在识别脱氧核糖核酸结合位点中起着重要作用，迄今为止已有41项，但缺乏系统和全面的方法。因此，提出了一种结合DNA序列和DNA形状的共享混合CNN/RNN体系结构CRPTS来识别TFBSs。

考虑到DLBSS虽然应用了基于DNA形状和DNA序列相结合的CNN模型，取得了一定的成果，但仍存在一些需要改进的缺陷，如数据偏差、提取基序间的局部依赖、TFs结合基序可视化等。本文提出了一种将CNN和递归神经网络(RNN)相结合的策略，以适应DNA序列及其相应的局部DNA形状特征。CNN被用来从给定的DNA序列和DNA形状特征中捕获低级空间信息，RNN被用来捕获序列之间的长期依赖关系。我们在66个体外通用PBM (uPBM)上，实验表明，CRPTS在预测TF结合亲和力方面明显优于一些现有的最先进的方法。CRPTS有能力发现一些基本的实验验证的结合基序，我们方法的关键点是提供验证的结合基序来可视化和解释我们的模型。

DNA形状对TFBSs识别的影响为了检验在共享杂交模型中加入DNA形状信息是否能提高TF结合亲和力的预测精度，我们在共享杂交模型的基础上扩展了一个仅使用独立DNA序列作为输入的实验，命名为CRPT。使用DNA序列+ DNA形状特征作为数据输入称为CRPTS。

2 模型构建

CRPTS中的混合模型由通道匹配模块、特征提取模块和特征集成模块组成。通道匹配模块,该模块由卷积层和ReLU层组成。由于脱氧核糖核酸序列和脱氧核糖核酸形状是异质数据，有必要采用合理的策略来整合它们。在本文中，我们使用了四种形状，但它们实际上最近被扩展到了13种。为了将更多的形状信息集成到我们的模型中，我们首先应用了与DLBSS相同的策略，该策略使用核大小为1的卷积层来处理DNA形状特征，以匹配混合网络的通道数量。更具体地说，我们的模型需要二进制作为输入，如数据集和数据预处理中所述；使用一热编码将一个DNA序列转换成一个类似图像的矩阵n ∙ l，其中n对应于四个核苷酸A、G、T和C，l代表DNA序列的长度。对于每个卷积网络层，该层的输出通过以下公式计算:

其中X是输入，i是输出位置的索引，k是内核的索引。w是卷积加权张量，可以解释为四形状基序检测器；b是偏差项。卷积输出由激活函数f(∙)转换，该函数在我们的模型中是一个逐元素的非线性函数ReLU。ReLU是DL中广泛使用的激活函数，可以缓解反向传播训练时的梯度消失问题，具有更好的收敛性能。ReLU的定义如下:

表2更详细的表示了通道匹配模块：

CRPTS的总体架构(1)数据输入。输入数据包括脱氧核糖核酸序列数据和四个形状特征。(2)编码。DNA序列通过一热编码转换成矩阵，DNA形状特征通过滑动窗口处理得到输入矩阵。(3)模型训练。首先将DNA形状特征矩阵输入卷积层，以匹配通道数；然后将两种类型的数据输入到共享混合模型中以提取特征。(4)输出。在批量标准化层之后，通过两个完全连接的层来组合特征，以获得最终的相似性。

DNA的三维结构在决定TFs和其他DNA结合蛋白的DNA结合偏好中起着重要作用。在以前的工作中，四种DNA形状特征的独特五聚体包括以下:MGW、罗尔、ProT和HelT，它们是通过滑动窗口方法和查询表从MC模拟中获得的。33原始DNA形状数据在表S3中提供。一个五聚体贡献一个MGW值、一个ProT值、两个roll值和两个HelT值，我们取两个roll和HelT值、一个MGW值和ProT的平均值作为四个DNA形状的最终有效值。为了使DNA序列的输入类型和对应的DNA形状特征一致，我们在序列两侧填充两个零，使长度为1 + 4，然后利用滑动窗口得到形状特征矩阵n ∙ l，其中n代表形状的数量，l代表序列的长度。为了消除由不同形状的不同值范围引起的偏差，我们分别通过零均值归一化对每个特征进行归一化，如下所示:

其中x为pentamer的原始特征值，x'为归一化值。u和&分别是所有样本的平均值和标准偏差。

3特征提取模块

该模型由卷积层、ReLU层、最大池层、LSTM层和丢弃层组成。将细胞神经网络处理后的DNA形状信息和原始DNA序列数据输入共享混合神经网络，提取特征进行预测。应用共享模型的优点是不仅大大减少了网络的参数，而且可以并行训练。首先，卷积层后面是ReLU层，内核16从给定的DNA序列和DNA形状特征中捕获空间信息。应用神经网络分析组学数据的优点之一是输入数据类型多，特征易于集成，有效特征可以通过表示学习自动发现。然后，使用最大池层根据该层的输出挑选最大值，这降低了输入的维数，使得模型具有计算效率。汇集操作被定义为:卷积

最大汇集层之后是LSTM层，以捕捉基序之间的长期依赖性以及序列之间的方向和空间距离。据我们所知，RNN是处理顺序数据的中枢神经系统的替代品，LSTM网络首次被提议使用特殊的隐藏单元来长时间记住输入。LSTM的关键是单元状态，它由称为门的结构仔细调节，包括输入门、忘记门和输出门。第一步，“遗忘之门”决定丢弃或保存什么信息。下一步是决定应该向单元状态添加多少新信息。最后一步决定输出什么值。

其中W代表权重矩阵；b代表偏差；ft、it和Ot代表遗忘门、输入门和输出门的权重值；xt、Ct和ht分别表示时间t的输入向量、内存表示和隐藏层状态；1是元素乘法。增加了概率为0.2的dropout52层，通过忽略一半的特征检测器来避免过拟合，使模型具有更强的泛化能力。接下来，将所有的脱氧核糖核酸序列和脱氧核糖核酸形状信息的缺失结果组合成一个特征向量，然后输入到输出级。特征提取模块的更详细设计如表3所示。

功能集成模块。该模块由两个完全连接的层组成，一个批处理规范化层和一个丢弃层。在输出阶段，在将其输入到完全连接层之前应用批处理归一化，这不仅避免了反向传播期间的梯度问题，而且简化了网络参数的初始化过程。批处理归一化的输出然后被馈送到具有32个隐藏神经元的完全连接层以集成特征。输出层后面是仅包含一个神经元的脱落层，用于预测TF-DNA结合特异性。表4显示了功能集成模块的更详细设计

对于每个数据集，我们最小化均方误差的合理损失函数来训练所提出的混合模型。损失函数定义如下:

其中yi和yi分别表示地面和估计的信号强度a，N是每个训练数据集中的序列数。L2正则化用于避免模型过拟合， l表示正则化参数，kq k 2表示L2范数。我们使用AdaDelta来优化损失函数，并将小批量设置为300。神经网络中的压差比、动量和增量分别从[0.2，0.5]、[0.9，0.99，0.999]和[1e–8，1e–6，1e–4]中随机选择。为了防止过度拟合并确保实验准确性，我们使用了五重交叉验证。最佳参数集在训练过程中被保留并应用于整个训练数据集，并且训练的时期被设置为100。此外，为了减少运行时间，采用了提前停机策略。

5 结果

1性能评估

为了防止过度拟合和实验准确性，对66个体外数据集的每一个使用5倍交叉验证来测量CRPTS的性能。为了评估所提出的方法，我们比较了预测TFBSs的性能和最新技术方法。预测结合亲和力的模型的质量是通过使用测定系数(R2)和皮尔逊相关系数(PCC)来评估的，它们在Weirauch等人的研究中得到了应用。我们假设两个评估指标越接近1，方法越好。我们对每个数据集使用了两个指标，并计算了66个数据集关于两个指标的平均值来验证该方法的综合性能水平。两个性能指标定义如下:

其中yi、Yi、Y和Y分别代表观察到的、预测到的、平均观察到的和平均预测到的结合亲和力分数

2 识别和可视化TFs模型

可视化的结合基序在计算生物学中至关重要。已经提出了几种方法来解释神经网络的参数并获得对所学特征的洞察。CNN不仅能高效处理DNA序列，还能自动提取特征，核类似于PWMs，描述了流行的序列特异性结合模型TF。为了进一步评估该模型，我们对已鉴定的转录因子结合基序进行了可视化。对于每个核，具有大于零的最高激活值的位置的序列被选择和收集，并且被用于以模体启发(MEME)模体格式的多个期望最大化来制作文件。识别的基序和真实基序之间的相似性由Gupta等人计算38，并在基序分析工具的MEME套件中公开。卷积层中的所有核被随机初始化，并且所有基序在模型训练期间被自动学习。实验结果表明，与竞争方法相比，CRPTS在体外数据集上取得了更高的准确率。如表1所示，记录了CRPTS学习的几个基序和标准数据库中的相应基序。

3 准确性比较和分析

为了更综合地评估CRPTS的性能，我们不仅将CRPTS与Deepbind进行了比较，Deepbind仅使用基于CNN模型的初级脱氧核糖核酸序列作为输入，而且还与三种结合脱氧核糖核酸序列和脱氧核糖核酸形状的方法进行了比较，包括两种基于核的方法(光谱+形状核，二错配+形状核)和一种基于DL方法的DLBSS，我们在66个关于上述均值PCC的体外数据集上比较了CRPTS与竞争方法的性能。表S1 和表S2 . R2详细比较了R2和PCC的两个评价。

此外，图2绘制了CRPTS和竞争方法在66个体外数据集上的总体性能比较。如图2所示，显而易见的是，在PCC和R2方面，CRPTS实现了比竞争方法更显著和稳定的性能。从这些图中有几个观察值得注意:CRPTS明显优于两种基于核的方法，这表明结合了DNA序列和DNA形状信息的DL模型在识别TFBSs方面具有显著的效果。如图3所示，CRPTS在平均R2和PCC方面取得了统计上的显著改善。相对于R2和PCC，CRPTS分别比DLBSS高6%和4%，这表明我们提出的混合DL模型比一个CNN有明显的优势。值得注意的是，在66个体外数据集上，CRPTS的最大值和最小值均优于竞争方法。一般来说，建议方法CRPTS的小方框表示两个指标的范围更加集中，证明建议方法具有很强的稳定性。CRPTS表现突出的原因可能在于(1) CRPTS明确考虑了DNA序列的形状信息，(2) CRPTS利用长短期记忆(LSTM)进一步提取DNA形状特征与DNA序列之间的长期依赖关系。

图2。CRPTS的R2和PCC的总体性能比较以及在66个体外数据集上的竞争方法(A)R2的总体性能比较。(二)PCC整体业绩比较

图3。R2的箱型图和通用报告格式的PCC值以及R2的竞争方法(A)箱型图。(二)PCC的箱线图。

DNA形状对TFBSs识别的影响为了检验在共享杂交模型中加入DNA形状信息是否能提高TF结合亲和力的预测精度，我们在共享杂交模型的基础上扩展了一个仅使用独立DNA序列作为输入的实验，命名为CRPT。然后我们分析了CRPTS(使用DNA序列+ DNA形状特征作为数据输入)和CRPT(仅使用DNA序列作为数据输入)的结合事件预测能力，展示了我们模型的优越性。从图4可以看出，CRPTS的中位数略高于CRPT，数据分布一致，说明模型的稳定性不受数据输入的影响。如图3所示，DLBSS远优于Deepbind(R2和PCC的平均值分别增加了6%和3%)。高性能增益的原因在于:(1) Deepbind仅由一个卷积层组成，用于对所有潜在基元进行评分，但不考虑DNA序列的局部结构信息，(2)在DLBSS中明确组合DNA形状特征，用于考虑局部结构信息。与CRPT相比，CRPTS的表现略有提升(R2和PCC的平均值分别提升了1.3%和1%)；详情见表S1和S2。低性能增益的原因如下:CRPT由卷积层和LSTM层，其中卷积层用于对所有潜在的基序进行评分，LSTM层用于学习序列中的局部结构信息和长期依赖性，而不是完全依赖于DNA形状数据。与Deepbind和DLBSS相比，CRPTS和CRPT可以在不完全依赖DNA形状数据的情况下从原始序列数据中捕获大部分结构信息，这并不奇怪。