论文解读:《BACPI:一个用于复合蛋白相互作用和结合亲和力预测的双向注意神经网络》

article/2025/8/23 9:54:50

期刊名:Bioinformatics

分区:Q1

发表:2022年1月8号

代码数据集:GitHub - CSUBioGroup/BACPI

一、摘要

BACPI,以预测CPI(化合物-蛋白质相互作用)和它们的结合亲和力,识别化合物-蛋白质相
互作用(CPIs)是药物发现过程中十分重要的一步。该模型直接以 化合物蛋白质的低表达为输入,
并使用GAT(图注意力网络)来预测化合物,使用CNN(卷积神经网络)来预测蛋白质。
具体来说,化合物用原子邻接图表示,蛋白质用氨基酸序列表示。我们分别用GAT和CNN来学
习原子和氨基酸的表示。此外,我们设计双向关注(原子的注意蛋白质和氨基酸复合)神经网络架构的
集成表示化合物和蛋白质,可以指导模型关注原子和氨基酸,从而增加模型的可解释性。最后,将复
合蛋白对的整合向量表示输入分类器预测cpi或回归模型预测复合蛋白结合亲力。
该类型预测可分为两类:基于结构的方法和无结构的方法。基于结构的方法:观察CPIs的作用
模式还能预测结合亲和力,可以预测三维结构上面的潜在结合位点,缺点:计算要求高3D,结构
有局限性。为了消除上面的问题:研究出了无结构方法:基于机器学习、基于网络、基于矩阵分解
的CPI预测。无结构测试方法缺陷:大多数无结构方法忽略了 蛋白质配体相互作用的结合亲和力
值的生物活性信息,而主要关注于二元分类问题。此外,如果没有利用结构信息,它们的可解释性
仍然是有限的。
评价指标:化合物与目标蛋白之间的结合亲和力通过解离常数(Kd)、抑制常数(Ki)或半最大抑制浓
度(IC50)等指标来量化。这三种测量值都较低,说明结合强度较高。预测复合蛋白结合亲和力是一
个基于回归的问题,其目的是预测CPI强度的近似值。

二、数据与方法

采用端到端的神经网络,双向注意神经网络,采用图注意力网络(GAT)和卷积神经网络
(CNN)数据集采用了人类与铁线虫的数据集,3个CPI和4个绑定亲和度数据集  使用二元交互数
据集和连续亲和数据集来评估BACPI在cpi和绑定亲和预测任务中的性能。
human和C.elegans CPI数据集来评估我们的模型在CPI预测任务中的分类性能,其中包含3369个
人类数据集和4000个线虫数据集的正交互作用。通过综合多种化合物和蛋白质资源的系统筛选,
获得高可信度的阴性样本,人类数据集为384 916份,线虫数据集为88 261份。

     

        通过GAT和CNN的端到端学习获得的特征来表示化合物和蛋白质。对于化合物,我们使用

RDKit将化合物的SMILES格式转换为图形表示,并使用GAT学习化合物的特征表示,可以提取图

形的各种信息,如原子类型、芳香度、化学键类型等。对于蛋白质,我们的CNN以该蛋白质的氨

基酸序列作为输入,学习该蛋白质的特征表示。最后,利用我们的双向注意神经网络整合化合物和

蛋白质的表征,预测输入的化合物和蛋白质对的相互作用和结合亲和力。给定一组复合蛋白对标签

(交互或亲和力),培训目标是最小化损失函数(叉CPI损失预测任务和亲和力的预测均方误差),使用反

向传播来优化权重矩阵和偏差向量,CNN与双向注意神经网络

由于真实的CPI数据集通常是不平衡的,我们设置了不同的正负样本比率(如1:1、1:3和1:5)来评估

预测模型的稳健性。

三、结果

 解释:图2和图3显示了人类和秀丽隐杆线虫数据集上的AUC和AUPR得分。可以看出,在

两个数据集上,与这些方法相比,提出的BACPI方法取得了最好的性能。这表明,端到端表示学习

方法可以探索有用的化合物和蛋白质的性质,以进行下游预测。我们还发现,当阳性样本和阴性样

本比例增加时,大多数方法的AUC得分保持稳定或略有上升,而所有方法的AUPR得分均有所下

降。这主要是因为召回和准确性都集中在少数类,这导致AUPR比AUC更惩罚假阳性。因此,在处

理不平衡数据集时,AUPR对方法的性能给出了更准确的评估,而AUC可能提供了对性能的乐观看

法。可以看到,在不平衡数据集(正、负样本比为1:3或1:5)上,我们的方法在AUPR方面明显优于

其他方法在人类和线虫数据集上的AUPR。实验结果表明,BACPI在不平衡数据集上具有良好的稳

定性和可靠性。

 评价表2、3:深度学习方法比机器学习方法(脊回归、套索回归和RF)具有更高的准确率。这主要

是因为深度学习具有强大的特征学习能力。

深度学习方法比机器学习方法(脊回归、套索回归和RF)具有更高的准确率。这主要是因为深度学习

具有强大的特征学习能力。

表3显示了不同预测方法对4个数据集的皮尔逊相关系数(PCC)结果。BACPI方法在IC50和Ki数据集

上的效果最好,在EC50数据集上的效果与MONN和deepurpose相同,在Kd数据集上的效果次之。

所有的比较结果表明BACPI可以有效地预测化合物和蛋白质的结合亲和力。

         表4显示了前10名候选药物和3种无关药物的预测结果。这些结果表明,在10种推荐药物中,有7种已经被许多研究证明了它们对SARS-CoV2的复制抑制作用。我们发现Darunavir、Cobicistat、Ritonavir和Ivermectin是目前正在接受2019年治疗冠状病毒病临床试验的四种候选药物。相比之下,三种无关药物(阿莫西林、青霉素和阿司匹林)对3CLPro靶标的吸引力和结合亲和力较弱,分别在87个药物中排名第78、80和82位。这些实验结果证实了BACPI在筛选再利用候选者方面的可靠性。 

四、最终结论

提出了一种端到端的表示学习方法来预测cpi和结合亲和力,只使用化合物的分子图和蛋白质序
列。使用GAT和CNN从化合物和蛋白质的原始数据中学习表示,并在CPI预测任务或亲和力预测任
务中使用双向注意神经网络。BACPI在测试human和c.elegans两个数据集CPI方面结果好。

http://chatgpt.dhexx.cn/article/INTdVnQ8.shtml

相关文章

云效故障定位研究论文被ICSE 2021 SEIP track收录

简介:新成果 近期,由阿里云云效团队联合复旦大学CodeWisdom研究团队、阿里技术风险部安全生产团队,合作完成的论文《MicroHECL: High-Efficient Root Cause Localization in Large-Scale Microservice Systems》被ICSE 2021 SEIP track录用。…

基于Mahout的电影推荐系统(MVC架构)

源代码下载地址:http://download.csdn.net/detail/huhui_bj/5248056 参考资料: http://www.ibm.com/developerworks/cn/java/j-lo-mahout/ http://blog.sina.com.cn/s/blog_541086000100qh2j.html 1 Mahout介绍 Apache Mahout 是 Apache Software Founda…

推荐系统 | 【01】简介

[toc]简介 介绍 简介:推荐系统经过对年的发展,在电商、资讯、音乐等应用中成为了核心组件之一。 背景:信息的过载与用户对于需求不够明确。 概念:用户没有明确的需求且服务于用户的商品信息过载,则系统能过通过算法对…

MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础

一、MADlib简介 MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据进行分析和挖掘。用户可以非常方便地将MADlib加载到数据库中,扩展…

OushuDB入门(八)——AI篇

一、OushuDB AI简介 OushuDB可集成MADlib机器学习库作为其AI组件。现在OushuDB通过MADlib已经支持了大部分机器学习算法,正在研发一个新的组件以支持深度学习。OushuDB对MADlib进行了增强和优化,并在此基础上提出了AI-in-Database的概念。 MADlib…

朴实无华,总结200道往年BAT机器学习面试题

来源:CSDN 刷题,是面试前的必备环节。本文作者总结了往年BAT机器学习面试题,干货满满,值得收藏。 想要入职大厂可谓是千军万马过独木桥。 为了通过层层考验,刷题肯定是必不可少的。本文作者根据网络在线发布的BAT机器学…

2019年国内IT行业就业状况分析,你拖后腿了吗?

点击上方“后端技术精选”,选择“置顶公众号” 技术文章第一时间送达! 作者:刚入道的大学僧 本文系投稿,原文内容点击阅读原文直达 一、分析背景与分析目的 随着科技的迅速发展,计算机的普及及对人类生活的渗透&#x…

Deep Learning Methods for Remote Heart Rate Measurement:A Review and Future Research Agenda

前言 本文为一片远程心率监测综述的总结复述,本文为作者第一篇试写博客,欢迎大家提出宝贵意见。 文章主要内容:1.简述了有关远程心率监测的基础知识与相关概念。2.讨论了基于深度学习的远程心率检测方法的几个最新进展,并根据模型…

论文解读:基于共享混合深度学习架构的DNA形状特征预测转录因子结合位点

Predicting transcription factor binding sites using DNA shape features based on shared hybrid deep learning architecture 数据:https://github.com/wangguoguoa/CRPTS 表S1: Tables S1 表S2:S2 表S3:Table S3 目录 1 文章概述…

一文简单理解“推荐系统”原理及架构

本文主要介绍什么是推荐系统,为什么需要推荐系统,如何实现推荐系统的方案,包括实现推荐系统的一些常见模型,希望给读者提供学习实践参考。 为什么需要推荐系统 对于信息消费者,需要从大量信息中找到自己感兴趣的信息&a…

拉普拉斯, 高斯, 高尔顿, 皮尔逊, 戈塞特, 费歇尔对统计学的发展贡献

由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践 上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学…

css过渡 取消过渡_如何过渡到微服务架构

css过渡 取消过渡 获取完整的书 微服务和容器 建议零售价$ 39.99 看见 本文摘录自Parminder Singh Kocher撰写的Pearson Addison-Wesley的著作《微服务和容器》。 经皮尔逊(Pearson)许可在此处转载©2018。 有关更多信息,请访问notifyit…

从编解码、传输到基础架构 详解Bigo多媒体技术栈

本文来自Bigo多媒体技术团队的投稿,详细介绍了Bigo多媒体技术的前生今世,通过何种技术手段支撑起了BigoLive、Likee和imo三大业务。技术栈具体涉及编解码、传输、全球基础设施架构等三方面。如果你也有独到的经验与思考,欢迎通过contributeli…

推荐系统lambda架构学习笔记之推荐系统(一)

推荐系统 个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。 推荐…

极客星球 | 联邦学习与产品化之路

一、 背景——联邦学习与fate简介 1、联邦学习 联邦学习(Federated Learning)是一种新兴的人工智能基础技术,由谷歌最先提出于2016年,原用于解决安卓手机终端用户在本地更新模型的问题。其设计目标是在保障大数据交换时的信息安…

云效故障定位论文被ICSE2021 SEIP track收录

近期,由阿里云云效团队联合复旦大学CodeWisdom研究团队、阿里技术风险部安全生产团队,合作完成的论文《MicroHECL: High-Efficient Root Cause Localization in Large-Scale Microservice Systems》被ICSE 2021 SEIP track录用。本文针对大规模微服务系统…

简历项目-

文章目录 项目一:电商广告推荐系统一、数据集项目实现分析二、根据用户行为数据创建ALS模型并召回商品用户行为数据拆分(pv,fav,cart,buy)预处理behavior_log数据集根据用户对类目偏好打分训练ALS模型根据用户对品牌偏好打分训练ALS模型 三. …

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录 1.架构1.1 大数据框架:lambda 架构的1.2.基本概念 2. 推荐模型构建流程2.1 数据2.1.1 数据来源2.1.2 数据清洗、处理 2.2 特征工程2.3 算法(机器学习) 来源 1.架构 推荐算法架构 召回 协同过滤基于内容的基于隐语义的 排序 召回决定…

个性化推荐系统

一、系统架构 1、大数据Lambda架构 (1)Lambda系统架构提供了一个结合实时数据和Hadoop预先计算的数据环境和混合平台, 提供一个实时的数据视图 (2)分层架构 ----- 批处理层 a.数据不可变,可进行任何计算&#xff0c…

【推荐架构day1】推荐系统的基本原理及架构:信息与人的供需匹配

按:本文来自陈彩华的精分享,从WHY、What到How系统性地介绍一下推荐系统的基本原理。 为什么需要推荐系统 对于信息消费者,需要从大量信息中找到自己感兴趣的信息,而在信息过载时代,用户难以从大量信息中获取自己感兴趣…