论文解读:基于共享混合深度学习架构的DNA形状特征预测转录因子结合位点

article/2025/8/24 10:04:35
Predicting transcription factor binding sites using DNA shape features based on shared hybrid deep learning architecture

数据:https://github.com/wangguoguoa/CRPTS

表S1: Tables S1

表S2:S2

表S3:Table S3

目录 

1 文章概述

2 引言

3 数据

4 方法

  1 共享混合深度学习

  2 模型构建

  3特征提取模块

5 结果

  1性能评估

  2 识别和可视化TFs模型

  3 准确性比较和分析


 

1 文章概述

转录调控的研究在分子生物学研究中仍然是困难而基本的。最近的研究表明,核苷酸的双螺旋结构在提高转录因子结合位点的准确性和可解释性方面起着重要作用。本文提出了一种混合卷积递归神经网络(CNN/RNN)结构,通过结合DNA序列和DNA形状特征来预测TFBSs。我们提出的CRPTS可以捕获DNA序列的局部结构信息,而不完全依赖DNA形状数据。在通用蛋白结合微阵列(uPBMs)衍生的66个体外数据集上的一系列综合实验表明,我们提出的方法CRPTS明显优于最先进的方法。

2 引言

蛋白质-脱氧核糖核酸相互作用在基因转录、剪接、翻译和降解的调节中起着重要作用。DNA上的TF结合位点(TFBSs)是位于基因调控区的短序列,通常在几个到大约20个碱基对(bp)的范围内,不同基因上一个TF的结合区通常是保守的。当给定一个输入的脱氧核糖核酸序列时,对特定的转录因子是否有结合位点进行分类是生物信息学的核心任务。转录因子BSs的鉴定,也称为基序发现(MD)问题,通常被定义为从给定的一组DNA序列中寻找相似的子序列。随着高通量测序技术的快速发展,蛋白质结合微阵列(PBMs)提供了大量的体外实验数据,这是非常重要的,因为我们袖手旁观的可靠性数据,并提供了改进TF结合特异性表达和结合位点发现的计算方法的可能性。然而,考虑到核苷酸之间的依赖性,kmer-SVM和gapped k-mer已经相继基于k-mer特征被提出。 DL(深度学习)实现了前所未有的基于大规模染色质免疫沉淀测序(ChIP-seq)数据集的捕获基序模式和阐明复杂调节机制的性能。

基于DL的原始DNA序列预测TFBSs。一些开创性的研究提出了这样一个想法,即卷积神经网络(CNN)可以应用于基因组学,这依赖于CNN在计算机视觉中的基本构建模块。

虽然这些DL方法取得了很大的成就,但仍然存在一些缺点,忽略了DNA是一种复杂的三维大分子。由于在DNA结构阐明方面的进展,四个不同的DNA形状特征,包括小凹槽宽度(MGW)、螺旋桨扭曲(ProT)、螺旋扭曲(HelT)和滚动,可以通过蒙特卡罗(MC)模拟从DNA序列中计算得出。最近的研究表明,添加DNA形状在模拟和预测TF-DNA结合亲和力方面起着重要作用,其采用了传为了解释DNA结构的复杂性,在随后的研究中扩展了13个特征,包括六个bp内参数、六个bp间参数和一个MGW.34这些数据为预测TFBS和捕获更多影响TF结合的特征提供了前所未有的机会。统的机器学习方法。

值得注意的是,提出了一种基于DL的序列+形状框架(DLBSS),该框架使用共享的CNN从DNA序列及其对应的DNA形状特征中找到共同的模式。尽管DL模型或传统方法通过添加DNA形状来识别TFBSs表现良好,但提出有效方法来提高捕获序列特异性基序和预测与基因组DNA的特异性TF结合的性能的能力仍然是一个挑战

3 数据

脱氧核苷酸序列和四种情况特征,输入DNA序列用热编码转换成矩阵,防止过拟合和准确性,对66个体外数据集的每一个使用5倍交叉验证来测量CRPTS的性能。

4 方法

  1 共享混合深度学习

尽管有许多计算方法来识别tfb,但它仍然是研究界的一个主要挑战。最近的研究表明,脱氧核糖核酸形状特征在识别脱氧核糖核酸结合位点中起着重要作用,迄今为止已有41项,但缺乏系统和全面的方法。因此,提出了一种结合DNA序列和DNA形状的共享混合CNN/RNN体系结构CRPTS来识别TFBSs。

考虑到DLBSS虽然应用了基于DNA形状和DNA序列相结合的CNN模型,取得了一定的成果,但仍存在一些需要改进的缺陷,如数据偏差、提取基序间的局部依赖、TFs结合基序可视化等。本文提出了一种将CNN和递归神经网络(RNN)相结合的策略,以适应DNA序列及其相应的局部DNA形状特征。CNN被用来从给定的DNA序列和DNA形状特征中捕获低级空间信息,RNN被用来捕获序列之间的长期依赖关系。我们在66个体外通用PBM (uPBM)上,实验表明,CRPTS在预测TF结合亲和力方面明显优于一些现有的最先进的方法。CRPTS有能力发现一些基本的实验验证的结合基序,我们方法的关键点是提供验证的结合基序来可视化和解释我们的模型。

DNA形状对TFBSs识别的影响为了检验在共享杂交模型中加入DNA形状信息是否能提高TF结合亲和力的预测精度,我们在共享杂交模型的基础上扩展了一个仅使用独立DNA序列作为输入的实验,命名为CRPT。使用DNA序列+ DNA形状特征作为数据输入称为CRPTS。

  2 模型构建

CRPTS中的混合模型由通道匹配模块、特征提取模块和特征集成模块组成。通道匹配模块,该模块由卷积层和ReLU层组成。由于脱氧核糖核酸序列和脱氧核糖核酸形状是异质数据,有必要采用合理的策略来整合它们。在本文中,我们使用了四种形状,但它们实际上最近被扩展到了13种。为了将更多的形状信息集成到我们的模型中,我们首先应用了与DLBSS相同的策略,该策略使用核大小为1的卷积层来处理DNA形状特征,以匹配混合网络的通道数量。更具体地说,我们的模型需要二进制作为输入,如数据集和数据预处理中所述;使用一热编码将一个DNA序列转换成一个类似图像的矩阵n ∙ l,其中n对应于四个核苷酸A、G、T和C,l代表DNA序列的长度。对于每个卷积网络层,该层的输出通过以下公式计算:

 其中X是输入,i是输出位置的索引,k是内核的索引。w是卷积加权张量,可以解释为四形状基序检测器;b是偏差项。卷积输出由激活函数f(∙)转换,该函数在我们的模型中是一个逐元素的非线性函数ReLU。ReLU是DL中广泛使用的激活函数,可以缓解反向传播训练时的梯度消失问题,具有更好的收敛性能。ReLU的定义如下:

 表2更详细的表示了通道匹配模块:

CRPTS的总体架构(1)数据输入。输入数据包括脱氧核糖核酸序列数据和四个形状特征。(2)编码。DNA序列通过一热编码转换成矩阵,DNA形状特征通过滑动窗口处理得到输入矩阵。(3)模型训练。首先将DNA形状特征矩阵输入卷积层,以匹配通道数;然后将两种类型的数据输入到共享混合模型中以提取特征。(4)输出。在批量标准化层之后,通过两个完全连接的层来组合特征,以获得最终的相似性。

 DNA的三维结构在决定TFs和其他DNA结合蛋白的DNA结合偏好中起着重要作用。在以前的工作中,四种DNA形状特征的独特五聚体包括以下:MGW、罗尔、ProT和HelT,它们是通过滑动窗口方法和查询表从MC模拟中获得的。33原始DNA形状数据在表S3中提供。一个五聚体贡献一个MGW值、一个ProT值、两个roll值和两个HelT值,我们取两个roll和HelT值、一个MGW值和ProT的平均值作为四个DNA形状的最终有效值。为了使DNA序列的输入类型和对应的DNA形状特征一致,我们在序列两侧填充两个零,使长度为1 + 4,然后利用滑动窗口得到形状特征矩阵n ∙ l,其中n代表形状的数量,l代表序列的长度。为了消除由不同形状的不同值范围引起的偏差,我们分别通过零均值归一化对每个特征进行归一化,如下所示:

 其中x为pentamer的原始特征值,x'为归一化值。u和&分别是所有样本的平均值和标准偏差。

  3特征提取模块

该模型由卷积层、ReLU层、最大池层、LSTM层和丢弃层组成。将细胞神经网络处理后的DNA形状信息和原始DNA序列数据输入共享混合神经网络,提取特征进行预测。应用共享模型的优点是不仅大大减少了网络的参数,而且可以并行训练。首先,卷积层后面是ReLU层,内核16从给定的DNA序列和DNA形状特征中捕获空间信息。应用神经网络分析组学数据的优点之一是输入数据类型多,特征易于集成,有效特征可以通过表示学习自动发现。然后,使用最大池层根据该层的输出挑选最大值,这降低了输入的维数,使得模型具有计算效率。汇集操作被定义为:卷积

 最大汇集层之后是LSTM层,以捕捉基序之间的长期依赖性以及序列之间的方向和空间距离。据我们所知,RNN是处理顺序数据的中枢神经系统的替代品,LSTM网络首次被提议使用特殊的隐藏单元来长时间记住输入。LSTM的关键是单元状态,它由称为门的结构仔细调节,包括输入门、忘记门和输出门。第一步,“遗忘之门”决定丢弃或保存什么信息。下一步是决定应该向单元状态添加多少新信息。最后一步决定输出什么值。

 其中W代表权重矩阵;b代表偏差;ft、it和Ot代表遗忘门、输入门和输出门的权重值;xt、Ct和ht分别表示时间t的输入向量、内存表示和隐藏层状态;1是元素乘法。增加了概率为0.2的dropout52层通过忽略一半的特征检测器来避免过拟合,使模型具有更强的泛化能力。接下来,将所有的脱氧核糖核酸序列和脱氧核糖核酸形状信息的缺失结果组合成一个特征向量,然后输入到输出级。特征提取模块的更详细设计如表3所示。

 功能集成模块。该模块由两个完全连接的层组成,一个批处理规范化层和一个丢弃层。在输出阶段,在将其输入到完全连接层之前应用批处理归一化,这不仅避免了反向传播期间的梯度问题,而且简化了网络参数的初始化过程。批处理归一化的输出然后被馈送到具有32个隐藏神经元的完全连接层以集成特征。输出层后面是仅包含一个神经元的脱落层,用于预测TF-DNA结合特异性。表4显示了功能集成模块的更详细设计

 对于每个数据集,我们最小化均方误差的合理损失函数来训练所提出的混合模型。损失函数定义如下:

 其中yi和yi分别表示地面和估计的信号强度a,N是每个训练数据集中的序列数。L2正则化用于避免模型过拟合, l表示正则化参数,kq k 2表示L2范数。我们使用AdaDelta来优化损失函数,并将小批量设置为300。神经网络中的压差比、动量和增量分别从[0.2,0.5]、[0.9,0.99,0.999]和[1e–8,1e–6,1e–4]中随机选择。为了防止过度拟合并确保实验准确性,我们使用了五重交叉验证。最佳参数集在训练过程中被保留并应用于整个训练数据集,并且训练的时期被设置为100。此外,为了减少运行时间,采用了提前停机策略。

5 结果

  1性能评估

为了防止过度拟合和实验准确性,对66个体外数据集的每一个使用5倍交叉验证来测量CRPTS的性能。为了评估所提出的方法,我们比较了预测TFBSs的性能和最新技术方法。预测结合亲和力的模型的质量是通过使用测定系数(R2)和皮尔逊相关系数(PCC)来评估的,它们在Weirauch等人的研究中得到了应用。我们假设两个评估指标越接近1,方法越好。我们对每个数据集使用了两个指标,并计算了66个数据集关于两个指标的平均值来验证该方法的综合性能水平。两个性能指标定义如下:

 其中yi、Yi、Y和Y分别代表观察到的、预测到的、平均观察到的和平均预测到的结合亲和力分数

 2 识别和可视化TFs模型

 可视化的结合基序在计算生物学中至关重要。已经提出了几种方法来解释神经网络的参数并获得对所学特征的洞察。CNN不仅能高效处理DNA序列,还能自动提取特征,核类似于PWMs,描述了流行的序列特异性结合模型TF。为了进一步评估该模型,我们对已鉴定的转录因子结合基序进行了可视化。对于每个核,具有大于零的最高激活值的位置的序列被选择和收集,并且被用于以模体启发(MEME)模体格式的多个期望最大化来制作文件。识别的基序和真实基序之间的相似性由Gupta等人计算38,并在基序分析工具的MEME套件中公开。卷积层中的所有核被随机初始化,并且所有基序在模型训练期间被自动学习。实验结果表明,与竞争方法相比,CRPTS在体外数据集上取得了更高的准确率。如表1所示,记录了CRPTS学习的几个基序和标准数据库中的相应基序。

 3 准确性比较和分析

 为了更综合地评估CRPTS的性能,我们不仅将CRPTS与Deepbind进行了比较,Deepbind仅使用基于CNN模型的初级脱氧核糖核酸序列作为输入,而且还与三种结合脱氧核糖核酸序列和脱氧核糖核酸形状的方法进行了比较,包括两种基于核的方法(光谱+形状核,二错配+形状核)和一种基于DL方法的DLBSS,我们在66个关于上述均值PCC的体外数据集上比较了CRPTS与竞争方法的性能。表S1 和表S2 . R2详细比较了R2和PCC的两个评价。

此外,图2绘制了CRPTS和竞争方法在66个体外数据集上的总体性能比较。如图2所示,显而易见的是,在PCC和R2方面,CRPTS实现了比竞争方法更显著和稳定的性能。从这些图中有几个观察值得注意:CRPTS明显优于两种基于核的方法,这表明结合了DNA序列和DNA形状信息的DL模型在识别TFBSs方面具有显著的效果。如图3所示,CRPTS在平均R2和PCC方面取得了统计上的显著改善。相对于R2和PCC,CRPTS分别比DLBSS高6%和4%,这表明我们提出的混合DL模型比一个CNN有明显的优势。值得注意的是,在66个体外数据集上,CRPTS的最大值和最小值均优于竞争方法。一般来说,建议方法CRPTS的小方框表示两个指标的范围更加集中,证明建议方法具有很强的稳定性。CRPTS表现突出的原因可能在于(1) CRPTS明确考虑了DNA序列的形状信息,(2) CRPTS利用长短期记忆(LSTM)进一步提取DNA形状特征与DNA序列之间的长期依赖关系。

 图2。CRPTS的R2和PCC的总体性能比较以及在66个体外数据集上的竞争方法(A)R2的总体性能比较。(二)PCC整体业绩比较

 

 

 图3。R2的箱型图和通用报告格式的PCC值以及R2的竞争方法(A)箱型图。(二)PCC的箱线图。

DNA形状对TFBSs识别的影响为了检验在共享杂交模型中加入DNA形状信息是否能提高TF结合亲和力的预测精度,我们在共享杂交模型的基础上扩展了一个仅使用独立DNA序列作为输入的实验,命名为CRPT。然后我们分析了CRPTS(使用DNA序列+ DNA形状特征作为数据输入)和CRPT(仅使用DNA序列作为数据输入)的结合事件预测能力,展示了我们模型的优越性。从图4可以看出,CRPTS的中位数略高于CRPT,数据分布一致,说明模型的稳定性不受数据输入的影响如图3所示,DLBSS远优于Deepbind(R2和PCC的平均值分别增加了6%和3%)。高性能增益的原因在于:(1) Deepbind仅由一个卷积层组成,用于对所有潜在基元进行评分,但不考虑DNA序列的局部结构信息,(2)在DLBSS中明确组合DNA形状特征,用于考虑局部结构信息。与CRPT相比,CRPTS的表现略有提升(R2和PCC的平均值分别提升了1.3%和1%);详情见表S1和S2。低性能增益的原因如下:CRPT由卷积层和LSTM层,其中卷积层用于对所有潜在的基序进行评分,LSTM层用于学习序列中的局部结构信息和长期依赖性,而不是完全依赖于DNA形状数据。与Deepbind和DLBSS相比,CRPTS和CRPT可以在不完全依赖DNA形状数据的情况下从原始序列数据中捕获大部分结构信息,这并不奇怪。

 图4。DNA形状对r2c和PCC的影响


http://chatgpt.dhexx.cn/article/otFoyNRA.shtml

相关文章

一文简单理解“推荐系统”原理及架构

本文主要介绍什么是推荐系统,为什么需要推荐系统,如何实现推荐系统的方案,包括实现推荐系统的一些常见模型,希望给读者提供学习实践参考。 为什么需要推荐系统 对于信息消费者,需要从大量信息中找到自己感兴趣的信息&a…

拉普拉斯, 高斯, 高尔顿, 皮尔逊, 戈塞特, 费歇尔对统计学的发展贡献

由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践 上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学…

css过渡 取消过渡_如何过渡到微服务架构

css过渡 取消过渡 获取完整的书 微服务和容器 建议零售价$ 39.99 看见 本文摘录自Parminder Singh Kocher撰写的Pearson Addison-Wesley的著作《微服务和容器》。 经皮尔逊(Pearson)许可在此处转载©2018。 有关更多信息,请访问notifyit…

从编解码、传输到基础架构 详解Bigo多媒体技术栈

本文来自Bigo多媒体技术团队的投稿,详细介绍了Bigo多媒体技术的前生今世,通过何种技术手段支撑起了BigoLive、Likee和imo三大业务。技术栈具体涉及编解码、传输、全球基础设施架构等三方面。如果你也有独到的经验与思考,欢迎通过contributeli…

推荐系统lambda架构学习笔记之推荐系统(一)

推荐系统 个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。 推荐…

极客星球 | 联邦学习与产品化之路

一、 背景——联邦学习与fate简介 1、联邦学习 联邦学习(Federated Learning)是一种新兴的人工智能基础技术,由谷歌最先提出于2016年,原用于解决安卓手机终端用户在本地更新模型的问题。其设计目标是在保障大数据交换时的信息安…

云效故障定位论文被ICSE2021 SEIP track收录

近期,由阿里云云效团队联合复旦大学CodeWisdom研究团队、阿里技术风险部安全生产团队,合作完成的论文《MicroHECL: High-Efficient Root Cause Localization in Large-Scale Microservice Systems》被ICSE 2021 SEIP track录用。本文针对大规模微服务系统…

简历项目-

文章目录 项目一:电商广告推荐系统一、数据集项目实现分析二、根据用户行为数据创建ALS模型并召回商品用户行为数据拆分(pv,fav,cart,buy)预处理behavior_log数据集根据用户对类目偏好打分训练ALS模型根据用户对品牌偏好打分训练ALS模型 三. …

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录 1.架构1.1 大数据框架:lambda 架构的1.2.基本概念 2. 推荐模型构建流程2.1 数据2.1.1 数据来源2.1.2 数据清洗、处理 2.2 特征工程2.3 算法(机器学习) 来源 1.架构 推荐算法架构 召回 协同过滤基于内容的基于隐语义的 排序 召回决定…

个性化推荐系统

一、系统架构 1、大数据Lambda架构 (1)Lambda系统架构提供了一个结合实时数据和Hadoop预先计算的数据环境和混合平台, 提供一个实时的数据视图 (2)分层架构 ----- 批处理层 a.数据不可变,可进行任何计算&#xff0c…

【推荐架构day1】推荐系统的基本原理及架构:信息与人的供需匹配

按:本文来自陈彩华的精分享,从WHY、What到How系统性地介绍一下推荐系统的基本原理。 为什么需要推荐系统 对于信息消费者,需要从大量信息中找到自己感兴趣的信息,而在信息过载时代,用户难以从大量信息中获取自己感兴趣…

CoAP学习笔记——CoAP资源发现

【 原文链接】 (2015年4月15日,ct表述错误,待修改) 更多CoAP文章请参考博文索引——【物联网学习笔记——索引博文】 CoAP协议专门为M2M通信设计(设备间通信),在设备通信过程中很少会有人的干预…

一个用来学习CoAP协议的小例子

1 CoAP简介 CoAP 是受限制应用协议的简称,是物联网应用层协议之一。物联网应用层协议主要还有HTTP和MQTT,这三种协议有各自不同的应用场景。其中HTTP和MQTT使用TCP作为传输层协议,而CoAP使用UDP作为传输层协议,如下图&#xff1a…

CoAP学习笔记(1)CoAP报文结构

CoAP报文结构 CoAP基于UDP的应用层协议,报文结构如下 Ver 版本号占2bit,固定为01T 报文类型,占2bit,CoAP中有4种报文类型,如下 类型描述T值CON报文Confirmable,需要被确认的报文T00NON报文Non-Confirma…

coap协议学习之搭建coap测试环境

本篇目标:简单初步认识coap,以及怎么去测试自己搭建的coap协议应用。 材料准备: 谷歌浏览器/火狐浏览器(55.0)与 copper插件linux系统(搭建在虚拟机下的 Ubantu)与 libcoap开源程序 COAP插件的…

【协议】MQTT、CoAP、HTTP比较,MQTT协议优缺点

目录 MQTT、CoAP、HTTP区别 1. 协议栈: 2. 请求方式 3. 通讯消息格式: 4. 使用特点与使用场景 5.客户端平台差异 6.防火墙容错 MQTT、CoAP、HTTP介绍 CoAP协议 简介 CoAP与MQTT的区别: HTTP协议 简介 HTTP与CoAP的区别 MQTT协…

libcoap 接口分析与 CoAP 协议开发

libcoap 作为一个重要的 CoAP 开源实现,完整实现了 RFC 7252。很多优秀的 IoT 产品都用到了 libcoap,libcoap 为资源受限的设备(例如计算能力,射频范围,内存,带宽或网络数据包大小)实施轻量级应…

CoAP协议接入

CoAP协议规范 本小节介绍物联网平台支持的CoAP协议规范。 协议版本 支持RFC 7252 Constrained Application Protocol协议,更多信息,请参见RFC 7252。 通道安全 使用DTLS v1.2保证通道安全,更多信息,请参见DTLS v1.2。 开源客…

干货 | CoAP协议例析

点击上方“中兴开发者社区”,关注我们 每天读一篇一线开发者原创好文 在物联网领域中,MQTT和CoAP是最主要的两个应用协议。MQTT(Message Queuing Telemetry Transport/消息队列遥测传输)是基于TCP的发布/订阅方式的应用协议&#…

CoAP协议简介

学习CoAP最简单的方法便是阅读协议文档。该协议文档并不是那么复杂。当然如果有一个CoAP的简单介绍那就再好不过了。 什么是CoAP CoAP是受限制的应用协议(Constrained Application Protocol)的代名词。在最近几年的时间中,专家们预测会有更多的设备相互连接&#xf…