imputation-文献:False signals induced by single-cell imputation(scRNA-seq插补引入的假阳性问题)

article/2025/9/16 21:48:27

文章题目

False signals induced by single-cell imputation

中文名:

单细胞插补引起的假信号

文章地址:
https://f1000research.com/articles/7-1740/v2

评价插补方法:

SAVER,DrImpute,scImpute,DCA,MAGIC,knn-smooth
在这里插入图片描述

上述方法基于原理不同
SAVER,scImpute,drImpute基于模型,knn-smooth和MAGIC基于高斯平滑的思路,DCA是一种使用自编码器的基于深度学习的方法

评价指标构造方法:

1.构造简单的负二项数据集

1000个细胞 500个基因(平均表达确定在一个区间水平内) 细胞类型2类

数据集中不存在dropout现象(没有0值)
数据集中基因 一半处于差异表达状态 另外一半独立绘制 不存在差异表达
鉴定方法:通过SPearman相关性鉴定细胞间相关性,相关性确定后,用Bonferroni矫正相关性

假阳性设定:

不涉及DE基因或方向不正确的相关性被视为假阳性

结果

在这里插入图片描述

结果说明

所有插补方法都提高了检测低表达DE基因相关性的敏感性。然而,只有SAVER增强了低表达DE基因之间的相关性,而没有在独立绘制的基因之间产生假阳性基因相关性。

2.构造基于Splatter的数据模型

生成60个模拟scRNA-seq矩阵matrix
在这里插入图片描述

模拟数据集中的DE差异基因占比和dropout率各不相同,此外
每种方法的组也不相同

通过测试各组之间的差异表达基因来评估插补带来的假阳性可能
使用Kruskal Wallis检验来验证插补后数据的分布是否出现变化

真正的差异表达基因定义为:

gene大小为所有成对簇的最大对数2倍变化且在5%FDR后显著的基因才被称为DE gene

假阳性设定

构造的splatter数据集本身具有不同数据的原始值 设定为reference 这个值可以作为ground truth使用
插补前后的数据集本身的DE gene 与真实情况的出入视为假阳性和假阴性来源

结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WPvqDXQo-1665413613958)(https://note.youdao.com/yws/res/4098/WEBRESOURCEd962f266815475908182724581a06e88)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ic962sjV-1665413613959)(https://note.youdao.com/yws/res/4100/WEBRESOURCEf29038aad197a13bd99502195620c03f)]

结果解读

总的来说,当同时考虑敏感性和特异性时,基于模型的方法比平滑方法表现更好
在这里插入图片描述

3.对Tabula Muris数据集进行插补改装

从Tabula Muris中选择了6个10X 12个Smart-seq2的数据集

1.首先做归一化:

至少有两种细胞类型含有>5%的总细胞数目,过滤后有500-5000个细胞(表S1)。对每个数据集进行预处理,以删除占总细胞数小于5%的细胞类型,以及未分配给命名细胞类型的任何细胞。对基因进行过滤,以去除在不到5%的细胞中检测到的基因。

2.然后基于欧氏距离选择每种数据集中最相近的两个细胞类型
3.随后在选定细胞类型中计算基因差异表达
4.应用Mann-Whitney-U检验测试两种选定细胞类型之间的差异表达,评估每个插补引入的假阳性。采用Bonferroni多重检测校正,以确保预期总误报率低于1
5.留下不差异表达的基因,对其进行插补去噪

假阳性设定

插补去噪后进行上述步骤,差异表达基因如果存在即代表假阳性出现。

结果

在这里插入图片描述

结果解读

同一种方法在不同数据集上假阳性可能性不同。

4.构造可再现性的marker指标

上一步骤讲述的Tabula Muris数据集在该步骤继续使用
通过Mann-Whitney-U检验方法来确定标记基因Marker
Marker gene是一种不同于DE gene的指标 每一个gene都会被分配一个自己的marker所属细胞类型
判定标准:将基因分配给AUC值最高的细胞类型
使用5%的FDR和超过特定阈值的AUC为每个输入数据集定义重要标记基因

通过这种方法可以将每个基因分配给数据集中的单个细胞类型 而不是全局细胞类型

假阳性设定

设定为marker的gene在插补后是否是可再现的
可再现性分数定义为:
在两个数据集中都是显著标记的、也是同一细胞类型标记的标记的分数

结果

在这里插入图片描述

结果解读

存在大量的不可重现的标记marker gene 说明在不同数据集中的可定义为某个细胞类型的marker其实是有差别的。同一个marker gene在不同的数据集中属于不同的细胞类型。
如果不进行插补,两个数据集中95%的显著标记基因在同一细胞类型中高度表达。插补后,根据AUC阈值(可以划归为marker的阈值)的升高,这一数字大幅下降。在估算的Smart-seq2和10X Chromium数据集中,降低幅度阈值会导致更多标记分配给相互矛盾的细胞类型。
在这里插入图片描述

未经插补过的数据实际上获得了最高比例的一致性marker
在这里插入图片描述

插补之间的marker存在矛盾,同一个数据集中,通过不同插补方法分配给不同细胞类型的重要标记(FDR 5%)的比例亦不相同。
根据所用的插补方法,总共有5-35%的markergene 分配给不同细胞类型。
且存在偏向性 一部分属于MAGIC、SAVER和dca,另一部分属于scImpute、DrImpute和knn-smooth。

在这里插入图片描述

同样的数据集经过不同的插补方法处理后,同一数据集的两种不同细胞(红,蓝)出现了DE基因的假阳性变化。例如,使用MAGIC插补后,Zfp606在PP细胞中的表达高于A细胞,但使用knn光滑插补后则相反。

总结

  • 1.各类插补方法都会导致假阳性无可避免的存在
  • 2.平衡sensitivity和specificity之间的基本平衡不可靠插补来打破
  • 3.真实数据集相比于仿真数据集(splatter)变化更多,一些本来不会产生假阳性的方法在真实数据集上还是会产生假阳性
  • 4.不同的插补方法既有利于敏感性,也有利于特异性,但没有一种方法能够全面改善差异表达的检测
  • 5.当前单细胞RNASeq插补方法的基本局限性,即仅使用原始数据中的信息。因此,没有获得新的信息,这类似于简单地降低应用于数据的任何统计检验的显著性阈值
  • 6.验证多个数据集或多个插补方法的结果再现性可以消除一些假阳性。

http://chatgpt.dhexx.cn/article/W6iaRH0A.shtml

相关文章

混淆矩阵、召回率、精确率、正确率、F1、真阳性率、假阳性率、ROC、AUC

C o n f u s i o n M a t r i x : Confusion Matrix: ConfusionMatrix: 真实 1 0 预测 1 TP(命中) FP(虚报) 0 FN(漏报) TN(正确拒绝) 召回率 R e c a l l T P T P F N Recall \dfrac{TP}{TP FN} RecallTPFNTP​,关注真实情况,关注positive。“好瓜被…

准确率,召回率,mAP,ROC,AUC,特异性,敏感性,假阴性,假阳性

P/R和ROC是两个不同的评价指标和计算方式,一般情况下,检索用准确率、召回率、F1、AP和mAP,分类、识别等用ROC和AUC(特异性和敏感性是ROC当中的一个部分)。 准确率、召回率、F1、AP和mAP这几个指标需要依次看&#xff0…

扩增子测序引入的假阳性稀有类群干扰对微生物群落多样性、构建机制及相互作用的研究...

# 01 2022年8月17日,青岛华大基因研究院、深圳华大生命科学研究院联合中国农业科学院北京畜牧兽医研究所、山东大学微生物技术国家重点实验室、丹麦哥本哈根大学等单位在 Environmental Microbiome (IF 6.36) 上发表了题为 “Sequencing introduced false positive …

敏感性、特异度、α、β、阳性预测值(PPV)、阴性预测值(NPV)等指标及置信区间计算(附R语言代码)

这个虽然简单但老是被绕进去,所以整理一下方便查阅。 首先画一个22的混淆矩阵confusion matrix: TP = True positive(真阳性) FP = False positive (假阳性) FN = False negative(假阴性) TN = True negative(真阴性) 敏感性(sensitivity)= 真阳性率 = 真阳/实…

真阳性假阳性假阴性分割可视化

1.分割掩码二值化 分割掩码转化为图像格式时会在分割边界处有很多灰度像素点,这将导致后续利用分割掩码和预测分割掩码进行处理时会在边界处出现很多噪声点,因此利用阈值将分割掩码转换为二值图,消除边界上的灰度像素点。 代码 import nump…

(精确度,召回率,真阳性,假阳性)ACC、敏感性、特异性等 ROC指标

1、概念 金标准(标准集) 预测算法(预测集) 验证存在(T) 验证不存在(F) 合计 预测存在(P) 预测为正,真实为正(TP) …

fNIRS中的假阳性和假阴性:问题、挑战和方法

导读 本文强调了在进行功能性近红外光谱(fNIRS)研究时需要考虑和解决的一个重要问题,即无意中测量非神经血管耦合引起的fNIRS血流动力学反应的可能性。这些可能被误解为大脑活动,即“假阳性”(由于错误地将检测到的血流动力学反应分配给功能性大脑活动而…

精确度、召回率、真阳性、假阳性

1) 精确度( precision ):TP / ( TPFP ) TP / P 2) 召回率(recall):TP / (TP FN ) TP / T 3) 真阳性率(True positive rate):TPR TP / ( TPFN ) TP / T (敏感性 sensiti…

每天五分钟机器学习:如何计算模型的假阳性率和真阳性率?

本文重点 如上所示,我们学习了查准率和召回率,本文我们将学习真阳性率和假阳性率,学会这个对将来构建ROC曲线非常有帮助 真阳性率和假阳性率 假如使用测试集来评估一个分类模型(二分问题):所以样本实际值…

统计学中的真阳性(TP),假阴性(FN),假阳性(FP),真阴性(TN)怎么理解?

举个例子,假如要在一个地区进行1000人的疾病检测,我们站在上帝视角,知道这1000人中,有10人是疾病感染者,占比1%。 但实际的检测结果可能存在误差,误差包括两种情况 疾病感染者,被错误诊断为健康身体健康,但却被错误诊断为感染者对应了两种情况 检测出来的是阴性,就一…

敏感性、特异性、假阳性、假阴性

敏感性、特异性、假阳性、假阴性是医学领域常用的评估指标。 敏感性:在金标准判断有病(阳性)的人群中,检测出阳性的几率。真阳性(检测出确实有病的能力) TPR TP / ( TPFN ) TP / T 特异性:在金…

ADODB简介

ADODB简介 ADODB 是 Active Data Objects Data Base 的简称,它是一种 PHP 存取数据库的函式组件。现在 SFS3 系统 (校园自由软件交流网学务系统) 计划的主持人陈莹光老师,决定采用此一组件,为了让更多有心参与该项目的伙伴们能够顺利加入发展…

Padavan固件添加adbyby去广告功能

2019独角兽企业重金招聘Python工程师标准>>> 在路由-》自定义脚本》wan上下行启动后执行,添加下面脚本 #!/bin/shsleep 30###Adbyby去广告脚本### Adbyby1 ### 0关闭;1启动 ########以下脚本请勿更改##### if [ "$Adbyby" "0…

newifi mini php,WBB - Newifi mini刷小米路由mini固件 + 屏蔽广告Adbyby插件小记

17号在京东下单Newifi mini,99块,当时还觉得很神奇,下午3点的单,居然晚上7点就到了。和同类产品小米路由mini的官网缺货以及130价格完全不是一回事,但据说他们的硬件却基本一致。 到手开箱使用,一看界面还不…

adb host 和 adbd

1、在HOST端,adb会fork出一个守护进程(不是adbd),即server,而父进程继续处理client请求,所有的client通过TCP端口号5037进行与server通信,而server创建local socket与remote socket,…

2017-06-11 Padavan 完美适配newifi mini【adbyby+SS+KP ...】youku L1 /小米mini

源地址 http://www.right.com.cn/forum/thread-199452-1-1.html 最新固件通知地址: http://p4davan.80x86.io/tags/firmware/ (建议加入浏览器收藏) 2017-02-20 群里有朋友提供了L1硬件,新增加 适配 youku L1(L1C也可以),在这里可以下载&am…

2022自编译最新稳定版newifi3固件

仅添加了自己常用的功能,具体如下。另外还有一些注意事项,请务必阅读 另:2022版本与之前版本不通用,如需升级请清除数据或仅备份部分overlay文件,在刷入后覆盖 功能(针对最新版) 计划任务挂载点…

2021自编译NEWIFI3最新openwrt固件

仅添加了自己常用的功能,具体如下。另外还有一些注意事项,请务必阅读 另:2021版本与之前版本不通用,如需升级请清除数据或仅备份部分overlay文件,在刷入后覆盖 功能(针对最新版) 计划任务LED配…

路由器固件仓库广告屏蔽工具老毛子胜openwrt

1、阿呆猫http://www.admflt.com/ 我花了20买了一个Padavan固件优酷路由宝,16M256M内存。在广告屏蔽功能的第二个标签页,激活了一下adm软件。介绍中有阿呆猫的网站。更新重启就起做用了。 在电视应用中测试了一下,以前不成功BestTV&#xff0…

Adodb 官方介绍

前言 You say eether and I say eyether, You say neether and I say nyther; Eether, eyether, neether, nyther - Lets call the whole thing off ! You like potato and I like po-tah-to, You like tomato and I like to-mah-to; Potato, po-tah-to, tomato, to-mah-to - …