Drug Discovery Today| 频繁命中化合物:高通量筛选中需警惕的假阳性结果

article/2025/9/16 20:57:38

 


今天给大家介绍的是2020年1月在Drug Discovery Today上发表的综述“Frequent hitters: nuisance artifacts in high-throughput screening”。高通量筛选是药物研发的一个重要手段,然而研究中发现一些化合物在不同类型靶点筛选中均表现出阳性结果,这类化合物称为“频繁命中化合物”(Frequent hitters)。本综述针对频繁命中化合物的主要分类:胶体聚集化合物(Aggregators)、光学干扰物(Spectroscopic interference compounds)、化学易反应化合物(Chemical reactive compounds)和混乱成键化合物(Promiscuous compounds)进行简单介绍,同时对现常用的模型或规则和其未来发展方向进行讨论分析。

 

简介

高通量筛选是药物研发的一个重要手段,然而研究中发现一些化合物在不同类型靶点筛选中均表现出阳性结果,这类化合物称为“频繁命中化合物”(Frequent hitters)。根据筛选结果的有效性,频繁命中化合物可以大致分为两类,一是能与许多不同类型靶点成键结合的混乱化合物(Promiscuous compound);二是通过干扰实验条件而在多个实验中呈现出阳性结果的假阳性化合物(False positive)。虽然混乱化合物可能成为多药理作用的研究起点,但考虑其低选择性容易与其他蛋白发生反应从而导致潜在的毒副作用,因此这类化合物通常不作为新药物研发的首选;而假阳性化合物产生机制较为复杂,根据现有的研究主要可以分为:胶体聚集化合物、自荧光化合物、荧光酶抑制剂和化学易反应化合物(图1)。

图1频繁命中化合物关系图

 

为了避免频繁命中化合物对实验干扰,许多实验方法,例如采用qHTS、ADP-Glo等更先进高通量筛选方法,或者采用交互实验验证等用于增强筛选结果可行度。此外,随着更多晶体结构发现分享和生物实验数据库整理,频繁命中化合物的探索变得更加可行。最为人熟知且广泛使用的就是PAINS(Pan-assay interference compounds)筛选规则。这是Baell等人在2010年基于六个不同靶点高通量筛选实验结果,并将其中频繁出现(≥4次)的化合物和相关结构总结为包含480个子结构的筛选规则。但这类规则主要针对的是化学易反应化合物,且PAINS规则本身也有很大局限性,因此,频繁命中化合物相关筛选预测工具的开发仍然是现今研究热点。在2017年,一篇由九名美国化学学会杂志主编联名发表的文章“The Ecstasy and Agony of Assay Interference Compounds”中强调了实验干扰引起的假阳性化合物的危害,告诫研究人员对筛选得出的阳性结果真实性需要反复确认,对潜在的假阳性结果需要提高警惕。为了更深入的了解频繁命中化合物和相关机制,本文对现有的胶体聚集化合物、光学干扰物、化学易反应化合物和混乱成键化合物相关筛选规则和模型进行了一个回顾分析,同时对未来的发展方向进行了讨论。

 

胶体聚集化合物

胶体聚集化合物是频繁命中化合物的重要组成。Ferreira et al.在对假阳性背后机制的研究中发现,88%的假阳性结果是由于胶体聚集化合物引起的。而在另一个针对β-lactamase实验中发现,胶体聚集化合物引起的假阳性结果高达95%,而试验中的真阳性结果只占整体结果的5%。此外,胶体聚集化合物不仅高频率出现在有机化合物筛选结果中,其在天然产物中也十分常见。Duan等人发现有14个研究文献达上百篇的“潜力天然产物分子”都是胶体聚集化合物,其中8个化合物临界聚集浓度甚至低于10μM,其中包括研究数目超过6,000项、研究经费高达百万的天然产物姜黄素。胶体聚集化合物是由小分子在溶液中聚集形成的半径60—300 nm的聚集体,其能够与蛋白表面非特异性结合,诱导蛋白质发生部分折叠,从而使得蛋白质失活(图2A)。常用的实验检测手段是在溶液中加入0.01-0.1% Triton X-100 或其他非离子型表面活性剂,但部分化合物在加入后仍能发生胶体聚集现象。关于现有的计算机筛选模型,Irwin等人收集12,600个胶体聚集化合物并建立一个基于聚集化合物结构相似性和脂水分配系数来预测胶体聚集化合物的规则Aggregator Advisor,但是由于建模方法较简单,这些规则预测结果的准确性受到限制。针对Aggregator Advisor的不足,作者所在课题组采用RandomForest和XGBoost算法结合多种描述符建立一个高效准确的预测模型,并开发成为网页预测工具ChemAGG,并总结一套胶体聚集化合物筛选规则:logD 大于6,芳香性三级碳大于14,羟基数目大于3,与至少三个原子相连的硫原子数目大于2的化合物在溶液中聚集的可能性更高。

图2频繁命中化合物中(A)胶体聚集化合物、(B)荧光酶抑制剂、(C)自荧光化合物和(D)化学易反应化合物的主要干扰机制

 

 

荧光酶抑制剂

荧光酶检测技术,主要是利用生物荧光酶探测实验中ATP浓度从而判断酶的活性高低,是高通量筛选中的重要检测手段。2019年在PubChem登记检测方法的约4400个高通量筛选实验中,14%的实验是基于生物荧光酶进行检测,49%的实验是基于荧光基团进行检测。然而,荧光酶抑制剂出现导致生物荧光酶探测中假阳性结果频频发生,更重要的是,这些干扰化合物在数据库中普遍存在。荧光酶检测干扰主要分为两类:特异性抑制(即对荧光酶的特异性抑制,图2B)和非特异性干扰(使酶失活或通过光吸收衰减光信号)。常见的荧光酶抑制剂包括苯并噻唑类化合物,例如2-芳基取代苯并-[d]噻唑、2-芳基取代苯并-[d]-咪唑和2-芳基取代苯并-[d]-恶唑等。此外,喹诺酮类化合物也是常见的荧光酶抑制剂。研究发现,对于苯并噻唑和喹诺酮类抑制剂而言,呈现出平面和平坦结构特点的化合物比呈现出复杂空间、多支链特点的化合物抑制作用更强(图3A)。值得注意的是,如果不提前进行有效鉴别,荧光酶类抑制剂作为假阳性化合物会成为后续药物研究的潜在威胁。例如,白藜芦醇 (resveratrol)是一类在癌症、糖尿病和阿尔茨海默病患者中显示出有潜在治疗价值的化合物。然而在2006年,白藜芦醇被确定为是一种FLuc抑制剂(Ki = 2μM)。在这此前,许多以FLuc荧光酶作为探测手段,浓度为微摩尔级别以上的白藜芦醇活性结果的真实性均受到质疑。为了防止荧光抑制剂产生的假阳性结果,常用的实验检测手段是双荧光酶检测方法(例如FLuc和RLuc组合检测)、交互实验或选择其他不同检测方法。关于现有的计算机筛选模型,Li等人收集390个荧光酶抑制剂结合SVM方法构建一个针对潜在生物荧光酶抑制剂的筛选模型,但是由于原始数据量的限制,该模型实际应用非常受限。Chen等人基于1551个荧光酶抑制剂建立MIEC-GBDT预测模型,实现90%的预测准确率。Ghosh等人采用不同的机器学习方法建模预测荧光素酶抑制剂,其中神经网络方法建成模型表现最好,相关预测模型Luciferase Advisor在OCHEM平台开放使用。

图3常见频繁命中化合物或子结构(A)荧光酶抑制剂、(B)自荧光化合物和(C)化学易反应化合物

 

 

自荧光化合物

通过荧光基团检测相关生物分子浓度是高通量筛选中另一重要检测手段。根据激发波长和发射波长范围,可以将常用的荧光基团分为四类:(1)紫外和低波长可视区:4-methyl umbelliferone (4-MU) and Alexa Fluor 350 (ex = 340 nm,em = 450 nm);(2) 绿光可视区:fluorescein and Alexa Fluor 488 (ex = 480 nm,em = 540 nm); (3) 红光可视区:Rhodamine, Resorufin, and Texas Red (ex = 540 nm, em = 600 nm); (4) 远红端可视区:Alexa Fluor 647 (ex = 570 nm, em = 671 nm)。然而,一些化合物由于自荧光性在荧光检验中造成假阳性结果(图2C)。Simeonov等人在针对一个70,000个分子数据库的筛选中发现,有3,500个化合物表现出比十个微摩尔的荧光剂4-methylumbelliferone (4-MU)更高的荧光强度。虽然仅占数据库的5%,但这类化合物在后续筛选中却占比近50%的阳性结果。常见的自荧光化合物例如喹喔啉4,9-二氧化物,蒽恶唑-6-酮,二氢蒽-9,10二酮,嘧啶三嗪二酮等化合物(图3B)。现较常用的实验手段是采用远红端荧光剂或增加荧光强度;对于自荧光化合物筛选模型,Su等人收集五种不同吸收和发射波长的荧光基团的自荧光化合物并构建决策树模型,建立了14条筛选规则。

 

化学易反应化合物

化学易反应化合物指要是指通过对靶点蛋白残基或对实验中亲核试剂进行氧化还原反应而呈现出阳性结果的化合物。这类化合物主要指带一些含有例如硫酯类、磺酰基、氮杂环丙烷类等强亲电基团的易反应化合物(图3C)和能通过氧化循环产生过氧化氢的化合物。前一类化合物易与实验环境中试剂发生反应,后一类化合物则能通过产生过氧化氢将靶点蛋白中的半胱氨酸残基氧化从而使得蛋白质失活(图2D)。例如,异喹啉-1,3,4-三酮衍生物由于能抑制半胱氨酸蛋白酶-3活性,被认为是治疗与细胞凋亡相关疾病的潜力药物,然而后续研究发现,异喹啉-1,3,4-三酮衍生物抑制机制主要是通过生成过氧化氢,从而将半胱氨酸中的巯基氧化成磺酸基,进一步导致蛋白质失活。这类易反应化合物不作为首要药物研发的原因,一方面是因为其不稳定性和易反应性使得其在体内吸收代谢过程容易失控,另一方面是因为其特异性低使得化合物在实际应用时往往伴随着不期望的副反应甚至导致严重的毒性反应。

为了避免化学易反应化合物引起的假阳性结果,实验中一般会加入DDT试剂或者进行HRP-PR实验检验。关于计算机预测模型,1997年,Rishton等人总结出一套含有19个易反应子结构用于筛选潜在的假阳性结果。2004年,Hajduk等人通过一种核磁共振技术检测硫醇反应化合物,并将这些易反应化合物中的子结构总结成一套ALARM NMR筛选规则。2010年, Baell等人基于六个不同靶点高通量筛选实验结果,总结一套包含480个子结构的筛选规则PAINS。在2012年,Lilly公司基于多年药物研发数据,结合药物化学家研究经验,总结出共275个子结构筛选规则,其中有116个子结构是针对化学易反应化合物(酰化剂(51种规则)、醛酮(29种规则)、烷基化剂(29种规则)和氧化还原循环剂(7种规则))。

 

混乱化合物

混乱化合物指能与许多不同靶点特异性成键的化合物,由于其在物化性质和结构方面都展示出高度变化性,实际数据完整度较低,其预测的难度较高。Yang等人发现一些FH具有相同或相似的骨架,例如2-氨基噻唑骨架化合物发现在测试的14个实验中均表现为阳性结果,之后其基于PubChem数据库中大量实验数据开发一种通过分子骨架预测化合物为FH可能性的方法Badapple,并根据预测分数将化合物分为非混乱化合物、低混乱化合物和高混乱化合物。除了骨架外,一些化合物在子结构的改变也可能会导致化合物混乱度发生改变,称为“混乱度悬崖”(Promiscuity Cliff)。Jurgen等人在对不同来源的分子以及激酶抑制剂进行关于子结构-混乱度的分子对分析,相关数据在ZENODO可以获得。Stork等人针对混乱化合物进行分析建模,并建立了相关预测网站HitDexter2.0。有趣的是,另一项研究关注在高通量筛选中从未击中的化合物,称为DCM(dark chemical matter)。这类化合物与混乱化合物相反,在超过100次不同靶点的筛选中都未表现出活性。鉴于这类化合物的高度选择性,DCM常被用作频繁命中化合物建模中的负集或外部测试集。

另一方面,混乱化合物并不是一无是处。多药理机制(Polypharmacology)是老药新用以及药物拯救的基础。实际上,药物选择性的定义随着时间发生着变化,研究表明现有的药物分子普遍含有2~6个靶点;其次,一些疾病的治疗,例如癌症或神经相关疾病,需要多靶点化合物作用。化合物多靶点预测网站,例如Similarity Ensemble Approach (SEA), SwissTargetPrediction,HitPick,TargetNet,PPB2等也逐渐被广泛应用。类似网站对于正确了解混乱化合物也有着重要作用。

 

讨论及结论

在这篇综述,作者主要讨论了频繁命中化合物的机制和其现有的发展,总结相关常用实验检测方法(表1)和计算机筛选工具(表2)。现有的计算机筛选工具仍有许多可以改进的方面:(1) 频繁命中化合物筛选工具应该被用作标记特征,而不是严格的筛选过滤器。其中一个原因是主要因为现有筛选工具初始数据限制。因此对应用域进行评估或用外部数据集检验过的模型可信度更高;(2)对于不同机制的频繁命中化合物,应该采取不同的策略对待,也是因为其意义不同,机制分明清晰的频繁命中化合物模型具有更高的应用价值。更多频繁命中化合物机制,例如细胞膜干扰物(例如羟苯基腙)和金属螯合物(例如紫草碱)等待进一步探索。为推动频繁命中化合物筛选更进一步发展,作者将现有的频繁命中化合物相关数据和数据源附在文章附加材料,希望通过合理应用频繁命中化合物筛选模型,药物化学家和相关研究者能够避免假阳性结果,真正实现有效且低成本的药物研发。

 

Manuscript availability

https://www.sciencedirect.com/science/article/pii/S1359644620300404

参考资料

Ziyi Yang, Junhong He et al. Frequent hitters: nuisance artifacts in high-throughput screening. Drug Discovery Today 2020.

https://doi.org/10.1016/j.drudis.2020.01.014

 


http://chatgpt.dhexx.cn/article/yNdYGM13.shtml

相关文章

算法的评价标准:ROC,假阳性,mape

名称含义公式真阳率\召回率\查全率\TPR\Recall表示正确预测的正样本与全部正样本的比值 a a c \frac{a}{ac} aca​假阳性率\FPR表示负样本被预测为正样本与全部负样本的比值 b b d \frac{b}{bd} bdb​精确率\查准率\Precision\表示正确预测的正样本与预测为正样本的比值 a a …

【笔记】 Hard negative:区域建议框中得分较高的False Positive(假阳性)

eg1: 对于目标检测中我们会事先标记处ground truth,然后再算法中会生成一系列proposal,这些proposal有跟标记的ground truth重合的也有没重合的,那么重合度(IOU)超过一定阈值(通常0.5)的则认定为…

病毒组学数据分析 -03 DRAM-V 病毒序列识别(剔除假阳性)

DRAM(Distilling and Refining Annotations of Metabolism,提取和精练代谢注释)是一种用于注释宏基因组组装基因组和VirSorter确定的病毒重叠群的工具。DRAM 使用KEGG、UniRef90、PFAM、dbCAN、RefSeq 病毒、VOGDB和MEROPS注释 MAG&#xff0…

【概率论】理解贝叶斯(Bayes)公式:为什么疾病检测呈阳性,得这种病的概率却不高?

先说结论:因为假阳性的人数相比于真阳性太多了。 具体是怎么回事呢?咱们慢慢分析。 文章目录 一、贝叶斯公式二、典例分析三、贝叶斯公式的本质思考(摘自教材) 一、贝叶斯公式 定理1(贝叶斯公式) 设有事件…

全面梳理:准确率,精确率,召回率,查准率,查全率,假阳性,真阳性,PRC,ROC,AUC,F1

二分类问题的结果有四种: 逻辑在于,你的预测是positive-1和negative-0,true和false描述你本次预测的对错 true positive-TP:预测为1,预测正确即实际1 false positive-FP:预测为1,预测错误即实…

imputation-文献:False signals induced by single-cell imputation(scRNA-seq插补引入的假阳性问题)

文章题目 False signals induced by single-cell imputation 中文名: 单细胞插补引起的假信号 文章地址: https://f1000research.com/articles/7-1740/v2 评价插补方法: SAVER,DrImpute,scImpute,DCA,MAGIC,knn-smooth 上述方法基于原…

混淆矩阵、召回率、精确率、正确率、F1、真阳性率、假阳性率、ROC、AUC

C o n f u s i o n M a t r i x : Confusion Matrix: ConfusionMatrix: 真实 1 0 预测 1 TP(命中) FP(虚报) 0 FN(漏报) TN(正确拒绝) 召回率 R e c a l l T P T P F N Recall \dfrac{TP}{TP FN} RecallTPFNTP​,关注真实情况,关注positive。“好瓜被…

准确率,召回率,mAP,ROC,AUC,特异性,敏感性,假阴性,假阳性

P/R和ROC是两个不同的评价指标和计算方式,一般情况下,检索用准确率、召回率、F1、AP和mAP,分类、识别等用ROC和AUC(特异性和敏感性是ROC当中的一个部分)。 准确率、召回率、F1、AP和mAP这几个指标需要依次看&#xff0…

扩增子测序引入的假阳性稀有类群干扰对微生物群落多样性、构建机制及相互作用的研究...

# 01 2022年8月17日,青岛华大基因研究院、深圳华大生命科学研究院联合中国农业科学院北京畜牧兽医研究所、山东大学微生物技术国家重点实验室、丹麦哥本哈根大学等单位在 Environmental Microbiome (IF 6.36) 上发表了题为 “Sequencing introduced false positive …

敏感性、特异度、α、β、阳性预测值(PPV)、阴性预测值(NPV)等指标及置信区间计算(附R语言代码)

这个虽然简单但老是被绕进去,所以整理一下方便查阅。 首先画一个22的混淆矩阵confusion matrix: TP = True positive(真阳性) FP = False positive (假阳性) FN = False negative(假阴性) TN = True negative(真阴性) 敏感性(sensitivity)= 真阳性率 = 真阳/实…

真阳性假阳性假阴性分割可视化

1.分割掩码二值化 分割掩码转化为图像格式时会在分割边界处有很多灰度像素点,这将导致后续利用分割掩码和预测分割掩码进行处理时会在边界处出现很多噪声点,因此利用阈值将分割掩码转换为二值图,消除边界上的灰度像素点。 代码 import nump…

(精确度,召回率,真阳性,假阳性)ACC、敏感性、特异性等 ROC指标

1、概念 金标准(标准集) 预测算法(预测集) 验证存在(T) 验证不存在(F) 合计 预测存在(P) 预测为正,真实为正(TP) …

fNIRS中的假阳性和假阴性:问题、挑战和方法

导读 本文强调了在进行功能性近红外光谱(fNIRS)研究时需要考虑和解决的一个重要问题,即无意中测量非神经血管耦合引起的fNIRS血流动力学反应的可能性。这些可能被误解为大脑活动,即“假阳性”(由于错误地将检测到的血流动力学反应分配给功能性大脑活动而…

精确度、召回率、真阳性、假阳性

1) 精确度( precision ):TP / ( TPFP ) TP / P 2) 召回率(recall):TP / (TP FN ) TP / T 3) 真阳性率(True positive rate):TPR TP / ( TPFN ) TP / T (敏感性 sensiti…

每天五分钟机器学习:如何计算模型的假阳性率和真阳性率?

本文重点 如上所示,我们学习了查准率和召回率,本文我们将学习真阳性率和假阳性率,学会这个对将来构建ROC曲线非常有帮助 真阳性率和假阳性率 假如使用测试集来评估一个分类模型(二分问题):所以样本实际值…

统计学中的真阳性(TP),假阴性(FN),假阳性(FP),真阴性(TN)怎么理解?

举个例子,假如要在一个地区进行1000人的疾病检测,我们站在上帝视角,知道这1000人中,有10人是疾病感染者,占比1%。 但实际的检测结果可能存在误差,误差包括两种情况 疾病感染者,被错误诊断为健康身体健康,但却被错误诊断为感染者对应了两种情况 检测出来的是阴性,就一…

敏感性、特异性、假阳性、假阴性

敏感性、特异性、假阳性、假阴性是医学领域常用的评估指标。 敏感性:在金标准判断有病(阳性)的人群中,检测出阳性的几率。真阳性(检测出确实有病的能力) TPR TP / ( TPFN ) TP / T 特异性:在金…

ADODB简介

ADODB简介 ADODB 是 Active Data Objects Data Base 的简称,它是一种 PHP 存取数据库的函式组件。现在 SFS3 系统 (校园自由软件交流网学务系统) 计划的主持人陈莹光老师,决定采用此一组件,为了让更多有心参与该项目的伙伴们能够顺利加入发展…

Padavan固件添加adbyby去广告功能

2019独角兽企业重金招聘Python工程师标准>>> 在路由-》自定义脚本》wan上下行启动后执行,添加下面脚本 #!/bin/shsleep 30###Adbyby去广告脚本### Adbyby1 ### 0关闭;1启动 ########以下脚本请勿更改##### if [ "$Adbyby" "0…

newifi mini php,WBB - Newifi mini刷小米路由mini固件 + 屏蔽广告Adbyby插件小记

17号在京东下单Newifi mini,99块,当时还觉得很神奇,下午3点的单,居然晚上7点就到了。和同类产品小米路由mini的官网缺货以及130价格完全不是一回事,但据说他们的硬件却基本一致。 到手开箱使用,一看界面还不…