扩增子qiime2分析流程

article/2025/1/13 10:22:06

写在前面:写这篇博客只是为了总结自己对扩增子分析流程的理解,加深对扩增子的映像。

扩增子分析前的准备:

软件

qiime2(2023.5)qiime2官方下载地址
###配置文件下载:

wget https://data.qiime2.org/distro/core/qiime2-2023.5-py38-linux-conda.yml

###安装:

conda env create -n qiime2-2023.5 --file qiime2-2023.5-py38-linux-conda.yml

扩增子数据和元数据(metadata)

来自公司返回的双端测序文件(.fq.gz),metadata来自个人整理的采样信息,应包括以下内容(加粗是必须项):ID,barcode,date,site,type,groupLinkerPrimerSequenceReversePrimer,Platform, latitude,longitude等。ps:metadata包括的信息越多越好,可以用excel编辑,然后保存为txt格式。
​​​​​​metadata文件

数据导入:

​​## 根据metadata生成manifest文件

awk 'NR==1{print "sample-id\tforward-absolute-filepath\treverse-absolute-filepath"} \ NR>1{print $1"\t$PWD/seq/"$1"_R1.fq.gz\t$PWD/seq/"$1"_R2.fq.gz"}' \metadata.txt > manifesthead -n3 manifest

##数据导入qiime2,格式为双端33格式:

qiime tools import \--type 'SampleData[PairedEndSequencesWithQuality]' \--input-path manifest \--output-path demux.qza \--input-format PairedEndFastqManifestPhred33V2

##导入数据可视化:

qiime demux summarize \
>   --i-data ./demux.qza \
>   --o-visualization ./demux.qzv


将qzv文件在该网站中查看view.qiime2.org
​​​​​​​在这里插入图片描述
在这里插入图片描述
Yongxin-Liu

生成特征表和代表序列

切除序列两端的引物,左端barcode序列(10bp)+19bp上游V3区引物,右端V4为22bp下游引物。我这里barcode序列已经被切除,所以为左端为19.

time qiime dada2 denoise-paired \--i-demultiplexed-seqs demux.qza \--p-n-threads 4 \--p-trim-left-f 19 --p-trim-left-r 22 \--p-trunc-len-f 0 --p-trunc-len-r 0 \--o-table dada2-table.qza \--o-representative-sequences dada2-rep-seqs.qza \--o-denoising-stats denoising-stats.qza
# 改名
cp dada2-table.qza table.qza
cp dada2-rep-seqs.qza rep-seqs.qza

特征表和代表序列统计

qiime feature-table summarize \--i-table table.qza \--o-visualization table.qzv \--m-sample-metadata-file metadata.txt
qiime feature-table tabulate-seqs \--i-data rep-seqs.qza \--o-visualization rep-seqs.qzv

下载qzv文件并在view.qiime2.org查看,根据特征表确定抽平深度

在这里插入图片描述
在这里插入图片描述

Alpha和beta多样性分析

构建进化树用于多样性分析

qiime phylogeny align-to-tree-mafft-fasttree \--i-sequences rep-seqs.qza \--o-alignment aligned-rep-seqs.qza \--o-masked-alignment masked-aligned-rep-seqs.qza \--o-tree unrooted-tree.qza \--o-rooted-tree rooted-tree.qza

计算核心多样性

采样深度通常选择最小值,来自table.qzv
qiime diversity core-metrics-phylogenetic \--i-phylogeny rooted-tree.qza \--i-table table.qza \--p-sampling-depth 19954 \--m-metadata-file metadata.txt \--output-dir core-metrics-results

Alpha多样性组间显著性分析和可视化

可选的alpha指数有 faith_pd、shannon、observed_features、evenness
index=observed_features
qiime diversity alpha-group-significance \--i-alpha-diversity core-metrics-results/${index}_vector.qza \--m-metadata-file metadata.txt \--o-visualization core-metrics-results/${index}-group-significance.qzv

Alpha多样性稀疏曲线

max-depth选最大值,来自table.qzv
qiime diversity alpha-rarefaction \--i-table table.qza \--i-phylogeny rooted-tree.qza \--p-max-depth 78267 \--m-metadata-file metadata.txt \--o-visualization alpha-rarefaction.qzv
# 结果有observed_otus, shannon, 和faith_pd三种指数可选

Beta多样性组间显著性分析和可视化

可选的beta指数有 unweighted_unifrac、bray_curtis、weighted_unifrac和jaccard
# 7s, 指定分组是减少计算量,置换检验较耗时
distance=weighted_unifrac
column=Group
qiime diversity beta-group-significance \--i-distance-matrix core-metrics-results/${distance}_distance_matrix.qza \--m-metadata-file metadata.txt \--m-metadata-column ${column} \--o-visualization core-metrics-results/${distance}-${column}-significance.qzv \--p-pairwise

物种组成分析

物种注释,数据库见附录,可先silva-138-99-nb-classifier.qza 或 2022.10.backbone.full-length.nb.qza

1m 可选特异引物训练集如:如classifier_gg_13_8_99_V3-V4.qza 是我用V5-V7训练的文件,详见附录或官方教程

time qiime feature-classifier classify-sklearn \--i-classifier classer/silva-138-99-nb-classifier.qza \--i-reads rep-seqs.qza \--o-classification taxonomy.qza
# 可视化物种注释
qiime metadata tabulate \--m-input-file taxonomy.qza \--o-visualization taxonomy.qzv
# 堆叠柱状图展示
qiime taxa barplot \--i-table table.qza \--i-taxonomy taxonomy.qza \--m-metadata-file metadata.txt \--o-visualization taxa-bar-plots.qzv

差异分析

# 格式化特征表,添加伪计数,4s
qiime composition add-pseudocount \--i-table table.qza \--o-composition-table comp-table.qza
# 计算差异特征,指定分组类型比较,1m
column=Group
time qiime composition ancom \--i-table comp-table.qza \--m-metadata-file metadata.txt \--m-metadata-column ${column} \--o-visualization ancom-${column}.qzv# 按属水平合并,并统计
## 按属水平合并,6s
qiime taxa collapse \--i-table table.qza \--i-taxonomy taxonomy.qza \--p-level 6 \--o-collapsed-table table-l6.qza
# 格式化特征表,添加伪计数,6s
qiime composition add-pseudocount \--i-table table-l6.qza \--o-composition-table comp-table-l6.qza
# 计算差异属,指定分组类型比较,16s
qiime composition ancom \--i-table comp-table-l6.qza \--m-metadata-file metadata.txt \--m-metadata-column ${column} \--o-visualization ancom-l6-${column}.qzv

数据导出

导出科水平OTU表格

qiime taxa collapse\
>  --i-table table.qza \
>  --i-taxonomy taxonomy.qza \
>  --p-level 5\
>  --o-collapsed-table table-l5.qza
qiime tools export\
>  --input-path table-l5.qza\
>  --output-path exported-table
biom convert -i exported-table/feature-table.biom\
>  -o exported-table/silva_l5.txt --to-tsv

导出ASV数据

qiime tools export\
>  --input-path table.qza\
>  --output-path exported-table
biom convert -i exported-table/feature-table.biom\
>  -o exported-table/asv_table.txt --to-tsv

物种注释数据训练集

Silva 138 99% OTUs full-length sequences

官网下载

wget -c https://data.qiime2.org/2023.5/common/silva-138-99-nb-classifier.qza

Greengenes2 2022.10 full length sequences

官网下载

wget -c ftp://download.nmdc.cn/tools/amplicon/silva/silva-138-99-nb-classifier.qza

物种注释数据训练集

下载数据库文件(greengenes, 320M)

wget -c ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
mv gg_13_8_otus_99.tar.gz gg_13_8_otus.tar.gz
#解压
tar -zxvf gg_13_8_otus.tar.gz

使用rep_set文件中的99_otus.fasta数据和taxonomy中的99_OTU_taxonomy.txt数据作为参考物种注释

导入参考序列,50s

qiime tools import \--type 'FeatureData[Sequence]' \--input-path gg_13_8_otus/rep_set/99_otus.fasta \--output-path 99_otus.qza

导入物种分类信息,6s

qiime tools import \--type 'FeatureData[Taxonomy]' \--input-format HeaderlessTSVTaxonomyFormat \--input-path gg_13_8_otus/taxonomy/99_otu_taxonomy.txt \--output-path ref-taxonomy.qza

Train the classifier(训练分类器)——全长

time qiime feature-classifier fit-classifier-naive-bayes \--i-reference-reads 99_otus.qza \--i-reference-taxonomy ref-taxonomy.qza \--o-classifier classifier_gg_13_8_99.qza

引物提取参考序列的扩增区段 Extract reference reads

常用Greengenes 13_8 99% OTUs from 341F CCTACGGGNGGCWGCAG/805R GACTACHVGGGTATCTAATCC region of sequences(分类器描述),提供测序的引物序列,截取对应的区域进行比对,达到分类的目的。

在这里插入图片描述

本次使用引物341F-805R,请根据实际替换,

time qiime feature-classifier extract-reads \--i-sequences 99_otus.qza \--p-f-primer CCTACGGGNGGCWGCAG \--p-r-primer GACTACHVGGGTATCTAATCC \--o-reads ref-seqs.qza

Train the classifier(训练分类器)

基于筛选的指定区段,生成实验特异的分类器

time qiime feature-classifier fit-classifier-naive-bayes \--i-reference-reads ref-seqs.qza \--i-reference-taxonomy ref-taxonomy.qza \--o-classifier classifier_gg_13_8_99_V3-V4.qza

参考文献

Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight, J. Gregory Caporaso. 2019. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology 37: 852-857. https://doi.org/10.1038/s41587-019-0209-9

    IF: 68.164 Q1 B1

http://chatgpt.dhexx.cn/article/WMH9vwVs.shtml

相关文章

扩增子全长检测

在土壤、水体、粪便等样本中,里面的微生物有很多种类,其中细菌和真菌是最为常见的微生物。 在细菌的多样性研究,比较多的关注的是编码细菌核糖体16srRNA的序列,由9个可变区和保守区组成。真菌基因也是由ITS1和ITS2高变区以及多个…

扩增子测序

技术介绍 微基生物可利用二代高通量测序、三代高通量测序等平台对土壤、水体、粪便、肠道内容物、唾液、皮肤等样本中的16S rRNA基因/18S rRNA基因/ITS/功能基因等进行检测,检测样本中微生物的种类和相对丰度。 检测项目 16S rRNA基因测序: 16S rRNA基因为编码原…

扩增子定量检测

技术介绍 微基生物提供扩增子定量检测服务。扩增子测序是指利用二代高通量测序、三代高通量测序等平台对土壤、水体、粪便、肠道内容物、唾液、皮肤等样本中的16S rRNA基因/18S rRNA基因/ITS/功能基因等进行检测,检测样本中微生物的种类信息和相对丰度。相对丰度反…

扩增子分析全面升级!加量不加价,数据更多新玩法

加量不加价! 扩增子标准分析流程全面升级! 微生物是一类以分解代谢为主的生物类群,在微生物群落研究中,扩增子一直是了解微生物群落构成及分布的重要手段。基于marker gene的扩增子测序可以反映系统中的微生物多样性的组成。常见…

扩增子分析解读4去嵌合体,非细菌序列,生成代表性序列和OTU表

写在前面 之前发布的《扩增子图表解读》系列,相信关注过我的朋友大部分都看过了(链接直达7月文章目录)。这些内容的最初是写本实验室的学生们学习的材料,加速大家对同行文章的解读能力。 《扩增子分析解读》系列文章介绍 扩增子分析是目前宏基因组研究…

扩增子分析流程 —— 数据处理(vsearch)

本篇文章是笔者学习了刘永鑫老师的扩增子教程以后,根据自己的学习过程总结了一篇使用vsearch工具处理序列数据得出OTU表的文章。笔者这篇文章会根据笔者自身的学习思路,每一步的数据处理都会从三个方面(是什么、为什么和怎么做)去…

扩增子高通量测序

扩增子测序是指利用合适的通用引物扩增环境中微生物的16S rDNA/18S rDNA /ITS高变区或功能基因,通过高通量测序技术检测PCR产物的序列变异和丰度信息,分析该环境下的微生物群落的多样性和分布规律,以揭示环境样品中微生物的种类、相对丰度、进…

从零搭建一个属于自己的智慧语音“魔镜”(MagicMirro+wukong-robot)语音部分

这里我采用的是wukong-robot的开源项目,这个项目可以说是目前语音部分最好的解决方案,给大家分析下整个语音部分的构成,大致分为下面几个模块。 这里的语音识别(ASR)和语音合成(TTS)可以使用百…

树莓派——智能推送

树莓派——智能推送 本教程为python实训作业的笔记,包括了从如何烧系统到最后作品成型我所踩过的坑,走过的弯路(说多都是泪啊_) 开头篇 首先,老爷保号,bug远离我。 随着科技的发展,广告行业的…

树莓派安装开源项目——wukong_robot和魔镜结合 个人经验总结

首先安装树莓派镜像 系统:windows10 工具:SD卡、读卡器、树莓派3b、SD卡格式化工具、win32DiskImager、Raspbian系统镜像、Xshell(ssh工具) 镜像下载可选用官网 https://www.raspberrypi.org/downloads/ 后续镜像烧录与初始化修改 ,可参考多…

从零搭建一个属于自己的智慧语音“魔镜”(MagicMirro+wukong-robot)魔镜部分

语音部分结尾有已经烧录好的完整版镜像,动手能力较差的小伙伴,可以前去自取。 一、系统环境 硬件:原子镜、相框、显示器、至少8g的内存卡、树莓派3b 软件:2019-07-10-raspbian-buster的镜像 镜像链接:https://www.ra…

树莓派使用入门

作者 QQ群:852283276 微信:arm80x86 微信公众号:青儿创客基地 B站:主页 https://space.bilibili.com/208826118 参考 官方文档 官方Github Github raspberrypi/documentation 树莓派(Raspberry pi) 使用Pi Imager安装烧录操作系…

基于树莓派的智能魔镜,支持人脸识别、情感监测、热词唤醒、语音交互,以及与手机APP交互、温湿度/新闻热点/日期显示等

目录 功能清单 界面演示 系统框图 设计方案 整体结构 网站设计 app设计 魔镜界面设计 温湿度传感器 光电传感器 相关教程 第三方库的安装 安装库 换源 安装mqtt 安装Qt5 git clone提速 安装Adafruit_DHT opencv安装 安装字体 安装portaudio 安装snowboy 安装…

将Linux可执行文件变成可执行命令

查看PATH环境变量 echo $PATH 或 env | grep PATH 添加路径到PATH export PATH/usr/test:$PATH 临时改变,只能在当前的终端窗口中有效,当前窗口关闭后就会恢#复原有的path配置,通过修改.bashrc文件可以永久保存。 vim ~/.bashrc export PA…

linux执行软件,软件可执行文件 linux 可执行文件

如何制作exe程序可执行文件 Java制作成exe的安装文件真是太复杂了,有几种打包软件,比如InstallAnyWere等,可以打包成你想要的安装文件,但那个软件是英文版的,功能也挺大的,我也没找到相关的资料&#xff0c…

linux 如何运行一个可执行文件

本文只为整理思路,供自己日后参考。现在就从从一个执行文件a.out的运行开始,自上而下地分析linux是如何运行一个执行文件的。 1、首先,需要了解一下a.out这个目标文件。a.out在linux下是ELF(Executable Linkable Format&#xff…

浅析linux可执行文件

程序是以可执行文件的形式存放在磁盘上的,可执行文件既包括目标代码也包括数据。我们一般所使用的库函数可以被静态的拷贝到可执行文件中,也可以运行时动态链接。 可执行文件是一个普通文件,它描述了如何初始化一个新的执行上下文,也就是如何开始一个新的计算。当进程开始执…

python打包为linux可执行文件

1、将python文件打包后(dist及log文件不需要打包)上传至linux服务器,同一目录下 注:不要打包成zip格式,zip从windos上传至linux解压后会存在编码格式不一致的问题 2、安装pyinstaller打包库 pip installer pyinsta…

Linux 可执行文件结构与进程结构

Linux可执行文件结构 在 Linux 下,程序是一个普通的可执行文件,以下列出一个二进制可执行文件的基本情况: 可以看出,此可执行文件在存储时(没有调入到内存前)分为代码区(text)、数据…

Linux可执行文件与进程的虚拟地址空间

作者简介: 本文由西邮陈莉君教授研一学生贺东升编辑,梁金荣、张孝家校对 建议结合之前的《linux的内存寻址方式》看。 Linux可执行文件与进程的虚拟地址空间 一个可执行文件被执行的同时也伴随着一个新的进程的创建。Linux会为这个进程创建一个新的虚拟地…