病毒组学数据分析 -03 DRAM-V 病毒序列识别(剔除假阳性)

article/2025/9/16 21:00:37

DRAM(Distilling and Refining Annotations of Metabolism,提取和精练代谢注释)是一种用于注释宏基因组组装基因组和VirSorter确定的病毒重叠群的工具。DRAM 使用KEGG、UniRef90、PFAM、dbCAN、RefSeq 病毒、VOGDB和MEROPS注释 MAG(metagenome assembled genomes,宏基因组组装基因组 ) ,也可使用病毒重叠群肽酶数据库以及自定义用户数据库。DRAM 分两个阶段运行。首先是将数据库标识符分配给基因的注释步骤,然后是将这些注释整理成有用的功能类别的精练步骤。此外,病毒重叠群在此期间进一步分析以识别潜在的 AMG(auxiliary metabolic genes,辅助代谢基因)。这是通过分配一个辅助分数和标志来完成的,这些标志代表基因既是代谢性又是病毒性的置信度。

DRAM-v 依赖 VIRSorter 的输出来注释病毒重叠群并确定潜在的 AMG。它将来自 VIRSorter 和 VIRSorter_affi-contigs.tab 文件的预测病毒重叠群作为输入。预测的病毒重叠群以单个 fasta 文件的形式提供。这可以是来自预测的病毒重叠群输出的重叠群子集。fasta 是通过连接来自 VIRSorter 的预测病毒序列创建的。所有重叠群首先使用与 DRAM 中相同的管道进行处理,并在 NCBI RefSeq 中添加带有所有病毒蛋白的 BLAST 类型注释。

注释后,为每个基因分配辅助分数。辅助分数在 1 到 5 的范围内,代表基因起源于病毒的置信度,其中 1 分代表确信为病毒的基因,5 分代表用户在将其视为病毒基因时应谨慎对待的基因。根据来自 VIRsorter_affi-contigs.tab 文件的侧翼病毒蛋白质簇的类别分配辅助分数
辅助评分为 1,在左侧和右侧至少有一个标志基因(类别为 0 或 3 的 VIRSorter 蛋白簇)。
辅助评分为 2,基因在一侧具有标志性基因而在另一侧具有病毒样基因(具有类别 1 或 4 的 VIRSorter 蛋白簇)时。
辅助评分为3分,分配给两侧具有病毒样基因的基因
辅助评分为4分,一侧侧有病毒样或标志性基因,另一侧没有病毒样或标志性基因,以及所有属于具有三个或更多具有非病毒代谢功能的相邻基因的延伸的基因的一部分。
辅助评分为5,对于没有病毒样或标志性基因的重叠群上的基因和重叠群末端的基因。

分配了可能改变对病毒基因的置信度的各种标志。病毒标志 (V) 被分配给基因已分配了一个 VOGDB 标识符和复制或结构类别。如果基因以汇总代谢形式存在,则指定代谢标志 (M)已知 AMG 标志 (K) 在基因已用代表来自先前识别的 AMG 的功能的数据库标识符,并且当基因数据库标识符是先前识别的 AMG 并且已被分配时,分配实验验证标志 (E)经实验证实可影响宿主代谢。当基因被赋予与病毒宿主附着和进入相关的标识符时,就会给出附着标志 (A)。当基因在重叠群末端的 5000 个碱基内时,会给出近重叠群末端标志 (F)。当基因位于包含转座子的重叠群上时,会给出转座子标志 (T)。当连续三个基因被赋予代谢标志而不是病毒(V)或病毒附着和进入(A)标志时,就会给出细菌标志 (B)


DRAM-v 注释的提炼主要基于潜在 AMG 的检测。默认情况下,如果辅助分数小于 4、已分配 M 标志、未分配 A、V 或 T 标志,则该基因被视为潜在 AMG。用户可以更改标志和最小辅助分数阈值。提取 DRAM-v 注释以创建病毒重叠群摘要和潜在的 AMG 摘要。病毒重叠群摘要是一个表格,其中包含每个重叠群和有关重叠群的信息。包括病毒的 VIRSorter 类别,如果病毒是环形的,如果病毒是原噬菌体,病毒中基因的数量、沿着重叠群的链开关数量(如果重叠群上存在转座酶)以及潜在 AMG 的数量。还总结了潜在的 AMG,给出了与总结代谢形式中发现的每个相关的代谢信息。DRAM-v 进一步总结了显示所有病毒重叠群的潜在 AMG、每个重叠群中潜在 AMG 的数量以及每个 AMG 所属模块的热图。

软件安装

codna安装

使用提供的 环境.yaml 文件。

wget https://raw.githubusercontent.com/shafferm/DRAM/master/environment.yaml
conda env create -f environment.yaml -n DRAM

如果使用这种安装方法,那么所有进一步的步骤都应该在新创建的 DRAM 环境中运行,或者使用可执行文件的完整路径,与活动环境一起使用以查找这些,例如。.可以使用以下命令激活此环境

conda activate DRAM

您现在已安装 DRAM,并已准备好设置数据库。

设置数据库

如果您已经安装并设置了以前版本的 dram,并且想要使用旧数据库,那么您可以通过两个步骤来完成。

#激活旧的 DRAM 环境,并保存旧配置:
conda activate my_old_env
DRAM-setup.py export_config > my_old_config.txt
#激活新的 DRAM 环境,并导入旧数据库
conda activate my_new_env
DRAM-setup.py import_config --config_loc  my_old_config.txt

重新配置数据库

DRAM-setup.py prepare_databases --output_dir DRAM_data --kegg_loc kegg.pep
#没有kegg权限时
DRAM-setup.py prepare_databases --output_dir DRAM_data

结果解读

1. 读liquor(product.html)

DRAM-v liquor是对已在带注释的病毒重叠群中检测到的潜在 AMG (pAMG) 的总结。像 DRAM liquor一样,它以 HTML 文件的形式出现,liquor.html(product.html)它是完全可移植的,可以在任何网络浏览器中打开。 在该热图中,y 轴由所有被注释的病毒重叠群组成,x 轴是至少一个病毒重叠群中存在的各种功能。最左侧的列是该病毒重叠群中存在的 pAMG 总数。这是因为给定行中的更多细胞可能被点亮为真,表明存在该功能,而不是在该病毒重叠群中发现的 pAMG 总数。这是因为每个基因可能有多个注释,每个注释可能涉及不同的功能,或者因为单个注释与多个功能相关联。
热图的后续部分代表来自馏出物的代谢和其他功能的每个主要类别,每列都是一个单独的功能。与 DRAM liquor一样,热图也是交互式的,将鼠标悬停在某个函数上会告诉您编码该函数的病毒重叠群上的基因以及分配给该基因的注释。
DRAM-v 的主要结论是

        1) 有多少病毒重叠群至少存在一个 pAMG,如热图中的病毒数量所示。

        2) 每个病毒重叠群中存在的 pAMG 数量,如热图最左侧列中的数字所示。

        3) 病毒重叠群中存在的 pAMG 的功能,如热图的点亮部分所示。和

        4) 病毒重叠群中任何 pAMG 的频率,这可以表明系统中噬菌体使用该功能的频率。

2. 读 distillate

虽然热图可以让您快速概览已注释的 pAMG,但您可能需要有关这些 pAMG 或已注释病毒的更多详细信息。这可以通过查看amg_summary.tsvviral_genome_summary.tsv(vMAG_stats.tsv)文件来完成。

AMG 摘要(amg_summary.tsv)提供了有关 pAMG 的代谢细节

该文件amg_summary.tsv更详细地查看了您的注释病毒重叠群中存在的 pAMG。每行代表一个与分配给病毒重叠群中基因的注释相关的函数。这意味着一个基因可以出现在多行中,因为每个基因可能有多个注释,每个注释可能涉及不同的功能,或者因为单个注释与多个功能相关联。这意味着 AMG 汇总表中的总行数不是您注释的 pAMG 总数,而是这些 pAMG 代表的函数数。
AMG 摘要的列提供有关该基因的信息、注释的 DRAM 馏出物类别和 DRAM-v 信息,说明为什么将基因称为 pAMG。前两列给出了被称为 pAMG 的基因和该基因所在的支架。下一列提供来自 DRAM 馏出物的有关与该 AMG 相关的功能的所有级别的信息。最后两列给出了由 DRAM-v 分配的辅助分数和 AMG 标志。请记住,较低的辅助分数表明该基因具有病毒性。

病毒基因组摘要(vMAG_stats.tsv)提供有关每个病毒重叠群的详细信息

vMAG_stats.tsv每个病毒重叠群中是一条线。每行包含MIUViG所需的所有信息。这包括 VirSorter 信息、基因计数、找到的链转换和每个 VOGDB 主要类别的基因计数以及其他附加信息。

3. 读原始注释(Raw)

在原始注释中是大多数基因组注释器返回的文件类型。这范围从支架和基因组特征文件到带有所有记录注释的表格。如果蒸馏物和liquor未涵盖您的新陈代谢或感兴趣的基因功能,或者您需要比这些级别的摘要提供的更多细节,这些文件就是您想要深入研究的文件。

注释主表(annotations.tsv

该文件annotations.tsv包含所有预测的开放阅读框架的所有注释。每行是一个单独的基因,所有列都给出注释信息。第一列给出指定的基因名称,随后的列给出 FASTA 文件的名称和调用该基因的支架的名称。接下来是支架上的基因位置(1-端)、核苷酸起始位置核苷酸结束位置基因的链化程度。之后是注释的等级。等级是根据Daly 等人(2016年)概述的方法分配等级的。简而言之,如果对 KEGG 基因有相互最佳命中,则注释被赋予 A 等级,如果对 UniRef90 基因有相互最佳命中,则注释被赋予 B等级,如果仅对 KEGG 或 UniRef90 有正向命中,则注释被赋予 C等级,如果只有对 PFAM 的命中,则为 D等级,如果没有对 KEGG、UniRef90 或 PFAM 的注释,则为 E等级
随后的列给出了注释信息。对于具有 BLAST 样式的数据库(使用MMseqs2完成)搜索具有数据库命中 ({database}_hit) 的列,如果命中是倒数最佳命中 ({database}_RBH),则匹配的百分比标识 ({database}_identity) )、命中的位得分 ({database}_bitScore) 和命中的 E 值 ({database}_eVal)。如果数据库具有 DRAM-v 提取的特定标识符,则存在附加列 ({database}_id)。这些是在注释的提炼中使用的标识符。
对于使用 HMM(使用HMMER)搜索的数据库,只给出了命中列表。命中由分号分隔,方括号中的每个命中之后是与命中关联的标识符。标识符是在注释的提炼中使用的。
之后是 MHC 计数 ( heme_regulatory_motif_count)。这是CXXCH该基因中存在的次数的计数。铁还原微生物使用多血红素 c 型细胞色素 (MHC) 作为电子转移最后一步的末端还原酶。我们注意到,这是识别 MHC 的第一步,因此为了进一步验证 MHC 的潜力,用户应该查看注释(例如硝酸还原酶不应被视为 MHC),上传到 psortB 以获取位置信息,并进行序列相似性网络分析相对于已知的 MHC。
DRAM-v 注释中的最后一列提供了额外的病毒信息。首先是基因的 VirSorter 类别。如果 VirSorter 中未预测该基因,则该单元格将留空,如果该基因已由 VirSorter 预测但未指定类别,则该单元格将包含一个-. 接下来是辅助分数,最后是 DRAM-v 分配的标志。

FASTA 文件

三个 FASTA 文件由 DRAM-v 生成:scaffolds.fna,genes.fnagenes.faa.。
scaffolds.fna 包含来自所有输入 MAG 的所有脚手架,并具有重命名的格式以匹配注释表和输出 gff 文件
genes.fna是所有 MAG 的所有基因的核苷酸序列
genes.faa是所有 MAG 的所有基因的氨基酸序列

基因组特征文件

注释以两种格式给出,可用于后续分析或可视化。这些文件包含所有带有注释的开放阅读框架以及 tRNA 和 rRNA。
genes.gff文件包含来自所有 MAG 的所有基因并与scaffolds.fna文件匹配。
有一个名为scaffolds.gbk的文件(genbank文件夹),它是一个包含所有基架的多代数据库文件。这可以通过基因组查看器(如IGV或geneious)进行查看。

tRNA 和 rRNA 文件

tRNA 总结在 中tRNAs.tsv,rRNA 总结在 中rRNAs.tsv

参考文献

Home · WrightonLabCSU/DRAM Wiki · GitHub

DRAM for distilling microbial metabolism to automate the curation of microbiome function | Nucleic Acids Research | Oxford Academic (oup.com)


http://chatgpt.dhexx.cn/article/DyxerxZr.shtml

相关文章

【概率论】理解贝叶斯(Bayes)公式:为什么疾病检测呈阳性,得这种病的概率却不高?

先说结论:因为假阳性的人数相比于真阳性太多了。 具体是怎么回事呢?咱们慢慢分析。 文章目录 一、贝叶斯公式二、典例分析三、贝叶斯公式的本质思考(摘自教材) 一、贝叶斯公式 定理1(贝叶斯公式) 设有事件…

全面梳理:准确率,精确率,召回率,查准率,查全率,假阳性,真阳性,PRC,ROC,AUC,F1

二分类问题的结果有四种: 逻辑在于,你的预测是positive-1和negative-0,true和false描述你本次预测的对错 true positive-TP:预测为1,预测正确即实际1 false positive-FP:预测为1,预测错误即实…

imputation-文献:False signals induced by single-cell imputation(scRNA-seq插补引入的假阳性问题)

文章题目 False signals induced by single-cell imputation 中文名: 单细胞插补引起的假信号 文章地址: https://f1000research.com/articles/7-1740/v2 评价插补方法: SAVER,DrImpute,scImpute,DCA,MAGIC,knn-smooth 上述方法基于原…

混淆矩阵、召回率、精确率、正确率、F1、真阳性率、假阳性率、ROC、AUC

C o n f u s i o n M a t r i x : Confusion Matrix: ConfusionMatrix: 真实 1 0 预测 1 TP(命中) FP(虚报) 0 FN(漏报) TN(正确拒绝) 召回率 R e c a l l T P T P F N Recall \dfrac{TP}{TP FN} RecallTPFNTP​,关注真实情况,关注positive。“好瓜被…

准确率,召回率,mAP,ROC,AUC,特异性,敏感性,假阴性,假阳性

P/R和ROC是两个不同的评价指标和计算方式,一般情况下,检索用准确率、召回率、F1、AP和mAP,分类、识别等用ROC和AUC(特异性和敏感性是ROC当中的一个部分)。 准确率、召回率、F1、AP和mAP这几个指标需要依次看&#xff0…

扩增子测序引入的假阳性稀有类群干扰对微生物群落多样性、构建机制及相互作用的研究...

# 01 2022年8月17日,青岛华大基因研究院、深圳华大生命科学研究院联合中国农业科学院北京畜牧兽医研究所、山东大学微生物技术国家重点实验室、丹麦哥本哈根大学等单位在 Environmental Microbiome (IF 6.36) 上发表了题为 “Sequencing introduced false positive …

敏感性、特异度、α、β、阳性预测值(PPV)、阴性预测值(NPV)等指标及置信区间计算(附R语言代码)

这个虽然简单但老是被绕进去,所以整理一下方便查阅。 首先画一个22的混淆矩阵confusion matrix: TP = True positive(真阳性) FP = False positive (假阳性) FN = False negative(假阴性) TN = True negative(真阴性) 敏感性(sensitivity)= 真阳性率 = 真阳/实…

真阳性假阳性假阴性分割可视化

1.分割掩码二值化 分割掩码转化为图像格式时会在分割边界处有很多灰度像素点,这将导致后续利用分割掩码和预测分割掩码进行处理时会在边界处出现很多噪声点,因此利用阈值将分割掩码转换为二值图,消除边界上的灰度像素点。 代码 import nump…

(精确度,召回率,真阳性,假阳性)ACC、敏感性、特异性等 ROC指标

1、概念 金标准(标准集) 预测算法(预测集) 验证存在(T) 验证不存在(F) 合计 预测存在(P) 预测为正,真实为正(TP) …

fNIRS中的假阳性和假阴性:问题、挑战和方法

导读 本文强调了在进行功能性近红外光谱(fNIRS)研究时需要考虑和解决的一个重要问题,即无意中测量非神经血管耦合引起的fNIRS血流动力学反应的可能性。这些可能被误解为大脑活动,即“假阳性”(由于错误地将检测到的血流动力学反应分配给功能性大脑活动而…

精确度、召回率、真阳性、假阳性

1) 精确度( precision ):TP / ( TPFP ) TP / P 2) 召回率(recall):TP / (TP FN ) TP / T 3) 真阳性率(True positive rate):TPR TP / ( TPFN ) TP / T (敏感性 sensiti…

每天五分钟机器学习:如何计算模型的假阳性率和真阳性率?

本文重点 如上所示,我们学习了查准率和召回率,本文我们将学习真阳性率和假阳性率,学会这个对将来构建ROC曲线非常有帮助 真阳性率和假阳性率 假如使用测试集来评估一个分类模型(二分问题):所以样本实际值…

统计学中的真阳性(TP),假阴性(FN),假阳性(FP),真阴性(TN)怎么理解?

举个例子,假如要在一个地区进行1000人的疾病检测,我们站在上帝视角,知道这1000人中,有10人是疾病感染者,占比1%。 但实际的检测结果可能存在误差,误差包括两种情况 疾病感染者,被错误诊断为健康身体健康,但却被错误诊断为感染者对应了两种情况 检测出来的是阴性,就一…

敏感性、特异性、假阳性、假阴性

敏感性、特异性、假阳性、假阴性是医学领域常用的评估指标。 敏感性:在金标准判断有病(阳性)的人群中,检测出阳性的几率。真阳性(检测出确实有病的能力) TPR TP / ( TPFN ) TP / T 特异性:在金…

ADODB简介

ADODB简介 ADODB 是 Active Data Objects Data Base 的简称,它是一种 PHP 存取数据库的函式组件。现在 SFS3 系统 (校园自由软件交流网学务系统) 计划的主持人陈莹光老师,决定采用此一组件,为了让更多有心参与该项目的伙伴们能够顺利加入发展…

Padavan固件添加adbyby去广告功能

2019独角兽企业重金招聘Python工程师标准>>> 在路由-》自定义脚本》wan上下行启动后执行,添加下面脚本 #!/bin/shsleep 30###Adbyby去广告脚本### Adbyby1 ### 0关闭;1启动 ########以下脚本请勿更改##### if [ "$Adbyby" "0…

newifi mini php,WBB - Newifi mini刷小米路由mini固件 + 屏蔽广告Adbyby插件小记

17号在京东下单Newifi mini,99块,当时还觉得很神奇,下午3点的单,居然晚上7点就到了。和同类产品小米路由mini的官网缺货以及130价格完全不是一回事,但据说他们的硬件却基本一致。 到手开箱使用,一看界面还不…

adb host 和 adbd

1、在HOST端,adb会fork出一个守护进程(不是adbd),即server,而父进程继续处理client请求,所有的client通过TCP端口号5037进行与server通信,而server创建local socket与remote socket,…

2017-06-11 Padavan 完美适配newifi mini【adbyby+SS+KP ...】youku L1 /小米mini

源地址 http://www.right.com.cn/forum/thread-199452-1-1.html 最新固件通知地址: http://p4davan.80x86.io/tags/firmware/ (建议加入浏览器收藏) 2017-02-20 群里有朋友提供了L1硬件,新增加 适配 youku L1(L1C也可以),在这里可以下载&am…

2022自编译最新稳定版newifi3固件

仅添加了自己常用的功能,具体如下。另外还有一些注意事项,请务必阅读 另:2022版本与之前版本不通用,如需升级请清除数据或仅备份部分overlay文件,在刷入后覆盖 功能(针对最新版) 计划任务挂载点…