VSEARCH:最简单易学的扩增子分析流程

article/2025/1/13 7:48:38

前言

前面宏基因组公众号号推送过关于USEARCH的介绍及使用,详情见文章:扩增子分析神器USEARCH简介。USEARCH软件在扩增子测序分析上堪称神器!该软件依靠大神Robert Edgar开发的UPARSE,UNOISE等算法,在序列搜索、聚类、去重、去嵌合体等步骤的准确度以及效率上显著高于老牌的mothur,QIIME等软件,受到全世界研究者的喜爱,目前谷歌学术显示其已经被引用了10780次!!

USEARCH这个软件的安装以及使用都非常方便,不像QIIME软件一样,“让无数生信人尽折腰”。USEARCH在除了高通量数据处理外,它还提供了α和β(包括unifrac等)多样性分析,可以说功能非常全面!

进入官网USEARCH我们可以看到作者提供32位的免费版本和64位的收费版本。免费提供的32位版本限制用户最多使用4G内存,依照本人样本的数据量以及使用经验的话,大于40个样品可能就不能有效的跑完全部流程了。

由于该软件64位收费版确实有点贵,而且有的实验室老板不一定让买。那么有没有什么方法可以突破免费版本的内存限制呢?

小编在这里就要给大家发一个福利了,让你能无差别的使USEARCH的绝大部分功能,而且还不用收费。那就是用与USEARCH非常类似的VSEARCH软件替代USEARCH使用,不管你有多少样品,有多大的数据量,都能让你无忧无虑的使用和USEARCH几乎一模一样的功能进行数据分析。

VSEARCH简介

VSEARCH是一个开源免费的64位,无内存限制的扩增子数据处理分析软件。该软件是专门针对Edgar大神开发的 USEARCH  软件而设计开发的(Rognes,2016)。

VSEARCH作者在文章前言中就提到由于Edgar大神开发的USEARCH不开源,并且没有给出其软件中具体算法的详细描述。最主要的原因还有USEARCH免费的版本只有32位版本在使用时有4GB的使用内存限制。这帮生信大佬们不想花钱买USEARCH,所以他们直接自己开发了一个与USEARCH功能类似的软件VSEARCH供大家使用。根据谷歌学术的统计数据,该软件从2016年发表到现在也已经被引用了1258次。

从FIG.1可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH在嵌合体检测过程准确性优于USEARCH。

从FIG.2可以看到:通过与USEARCH7和USEARCH8对比,VSEARCH的搜索准确率与USEARCH相当。

从FIG.3可以看到:通过与USEARCH7和USEARCH8对比,我们可以看到VSEARCH在聚类准确率上优于USEARCH的UPARSE功能。

VSEARCH主要的功能与参数都与usearch版本类似,其主要特点是开源免费,持续更新而且软件易于安装,且有各平台的版本。

在最新发布的VSEARCH版本中,作者针对USEARCH10中的UNOISE去噪方法(详细介绍),在VSEARCH中加入了UNOISE方法用于聚类分析,大家可以在以下实战命令中自行修改测试。

Vsearch软件主页:https://github.com/torognes/vsearch

VSEARCH软件目前已经更新到了2.14.1版本,

其Windows的安装版本链接是:

https://github.com/torognes/vsearch/releases/download/v2.14.1/vsearch-2.14.1-win-x86_64.zip

MAC版本的下载链接是:MAC_vsearch

https://github.com/torognes/vsearch/releases/download/v2.14.1/vsearch-2.14.1-macos-x86_64.tar.gz

Linux版本的下载链接是Linux_vsearch

https://github.com/torognes/vsearch/archive/v2.14.1.tar.gz

VSEARCH实战操作

以下命令都是小编悉心整理并测试的全套高通量下机数据处理流程命令,可以说是花钱都买不到的绝对干货!

文中使用所有测试数据已经放在百度云中,请后台回复vsearch获取测试数据下载链接。

这里给大家介绍Linux版本的VSEARCH安装

在linux中我们直接执行以下命令就可以直接安装了

##如何安装VSEARCH
wget https://github.com/torognes/vsearch/archive/v2.1.1.tar.gz
tar xzf v2.14.1.tar.gz
cd vsearch-2.14.1
./autogen.sh
./configure
make
make install  # as root or sudo make installmkdir -p seq # seq文件中存入原始数据 raw data

要想灵活的玩转VSEARCH软件,那我们首先要知道整个数据的分析流程是什么样的,通常我们拿到扩增子测序的数据会进行:序列双端合并;去除两端接头,Fastqc质量检测;序列去重复;嵌合体检测;OTU聚类;分类信息注释等步骤。而USEARCH在整个分析流程中主要的内存限制步骤是<Dereplication>; <Chimera checking>以及 <Match OTU>这三个步骤。而这三步分别对应着的VSEARCH步骤是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。

下面我将教大家如何从测序的原始序列拿到一个OTU矩阵表格

VSEARCH使用实战

# 目录
mkdir -p temp # 临时文件 temp directory for intermediate files
mkdir -p result # 最终结果 important results# 文件
# pipeline.sh 分析主流程
# rdp_16s_v16.fa  16S数据库
# seq/*.fq.gz 压缩的原始测序数据
# doc/design.txt 实验设计文件#Merge paired reads and label samples# 测序数据解压
gunzip seq/*# 依照实验设计批处理并合并
for i in `tail -n+2 doc/design.txt | cut -f 1`;dovsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq \--fastqout temp/${i}.merged.fq --relabel ${i}.
done# 合并所有样品至同一文件
cat temp/*.merged.fq > temp/all.fq
ls -l temp/all.fq# 3. 切除引物与质控 Cut primers and quality filter
# 请按实际修改,如Cut barcode 10bp + V5 19bp in left and V7 18bp in right
time vsearch --fastx_filter temp/all.fq \--fastq_stripleft 29 --fastq_stripright 18 \--fastqout temp/stripped.fq #
# 质量控制fastq filter, keep reads error rates less than 1%
time vsearch --fastx_filter temp/stripped.fq \--fastq_maxee_rate 0.01 \--fastaout temp/filtered.fa #
#xx sequences kept (of which 0 truncated), xxsequences discarded.# 4. 去冗余与生成OTUs Dereplication and cluster otus
# 4.1 序列去冗余,推荐使用vsearch,并添加miniuniqusize为8,去除低丰度,增加计算速度
time vsearch --derep_fulllength temp/filtered.fa \--sizeout --minuniquesize 8 \--output temp/uniques.fa # 4s## 此处我们用基于reference的去嵌合,下载rdp_gold.fa作
#为reference数据库
#wget http://drive5.com/uchime/rdp_gold.fa# 聚类方式生成OTU
time vsearch --cluster_fast temp/uniques.fa \--id 0.97 --centroids temp/otus.fa \--relabel OTU_ # 7s Clusters: 1244 --uc temp/clusters.uc# 细菌可用Usearch作者整理的RDP Gold数据库去除嵌合体
# wget http://drive5.com/uchime/rdp_gold.fa
time vsearch --uchime_ref temp/otus.fa \--db db/rdp_gold.fa \--nonchimeras result/otus.fa# Create OTUs table
time vsearch --usearch_global temp/filtered.fa \--db result/otus.fa \--id 0.97 \--otutabout result/otutab.txt #--threads 4
看了这套命令你也能在你自己的电脑上来一套扩增子数据处理的全部流程了,让你不用去看测序公司的眼色,同时欢迎大家多多分享,共同进步!

文中使用所有测试数据已经放在百度云中,请后台回复vsearch获取测试数据下载链接。

Reference

  1. Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4, e2584.

  2. Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772,  dx.doi.org/10.1038/nmeth.2604].

  3. UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon read. bioRxiv, 2016

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读


http://chatgpt.dhexx.cn/article/RnM12ZIx.shtml

相关文章

MPB:北林袁峥嵘组-​16S扩增子分析中常用软件及数据库应用现状

为进一步提高《微生物组实验手册》稿件质量&#xff0c;本项目新增大众评审环节。文章在通过同行评审后&#xff0c;采用公众号推送方式分享全文&#xff0c;任何人均可在线提交修改意见。公众号格式显示略有问题&#xff0c;建议电脑端点击文末阅读原文下载PDF审稿。在线文档(…

青岛大学苏晓泉组-微生物组16S扩增子功能校正算法Meta-Apo

Meta-Apo&#xff1a;微生物组16S扩增子测序的功能校正算法 Meta-Apo improves accuracy of 16S-amplicon-based prediction of microbiome function BMC Genomics [3.594] 原文链接&#xff1a;https://doi.org/10.1186/s12864-020-07307-1 第一作者&#xff1a;Gongchao Jin…

NCBI数据上传(一):扩增子测序数据

本篇文章把上传数据&#xff08;扩增子测序&#xff09;的步骤尽可能详细的整理出来&#xff0c;希望能对各位科研工作者有所帮助。其它类型数据上传讲解将依次在后续推文中奉上&#xff0c;大家持续关注哦&#xff01; 1.注册及登录账号 1&#xff09;注册一个NCBI&#xff…

PICRUSt2分析实战:16S扩增子OTU或ASV预测宏基因组、新增KEGG层级

PICRUSt2分析实战&#xff1a;16S扩增子OTU或ASV预测宏基因组、新增KEGG层级 更新时间&#xff1a;2021年7月8日 PICRUSt推出了近8年&#xff0c;引用5000余次。 现推出PICRUSt2&#xff0c;202年再次霸气发表于顶级期刊Nature Biotechnology&#xff0c;原文解读详见&#xff…

全长扩增子:是时候展示真正的技术了

提起微生物多样性测序&#xff0c;大家第一反应可能就是PE250或PE300二代测序&#xff0c;但是这只能针对细菌16S rDNA和真菌ITS或18S的某一段可变区&#xff08;如16S V3V4&#xff0c;16S V4V5&#xff0c;16SV4&#xff0c;ITS1&#xff0c;ITS2,18S V4等&#xff09;进行测…

一文读懂微生物扩增子16s测序

微生物多样性测序结果如何看&#xff1f; 做过16s测序的小伙伴们都知道 测完之后会拿到一份结果报告 但这并不代表可以开始写文章了 看似一大堆数据图表却不知如何下手 这是很多人头疼的地方 那么怎样给报告中的数据赋予灵魂 让它真正成为对你有帮助的分析呢&#xff1f; 一文扫…

微生物组-扩增子16S分析和可视化(2022.7本周开课)

福利公告&#xff1a;为了响应学员的学习需求&#xff0c;经过易生信培训团队的讨论筹备&#xff0c;现决定安排扩增子16S分析、宏基因组、转录组的线上/线下同时开课。报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 。期待和大家的线上线下会晤。 目前可以通报…

MPB:遗传发育所刘永鑫等-易扩增子:易用、可重复和跨平台的扩增子分析流程...

为进一步提高《微生物组实验手册》稿件质量&#xff0c;本项目新增大众评审环节。文章在通过同行评审后&#xff0c;采用公众号推送方式分享全文&#xff0c;任何人均可在线提交修改意见。公众号格式显示略有问题&#xff0c;建议电脑端点击文末阅读原文下载PDF审稿。在线文档(…

16S扩增子分析专题课01背景介绍

整理一下我近期报告的PPT、文稿和视频&#xff0c;分享给大家&#xff0c;希望对同行有所帮助。 本节课程视频共分3部分。 https://v.qq.com/x/page/t3015tp7d5u.html Part 1. 21扩增子分析背景介绍p1-23&#xff0c;23min https://v.qq.com/x/page/j3015gkf92g.html Part 2. 2…

微生物组-扩增子16S分析和可视化(2022.7)

福利公告&#xff1a;为了响应学员的学习需求&#xff0c;经过易生信培训团队的讨论筹备&#xff0c;现决定安排扩增子16S分析、宏基因组、转录组的线上/线下同时开课。报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 。期待和大家的线上线下会晤。 目前可以通报…

iMeta观点 | 短读长扩增子测序是否适用于微生物组功能的预测?

点击蓝字 关注我们 短读长扩增子测序是否适用于微生物组功能的预测&#xff1f; https://doi.org/10.1002/imt2.38 PERSPECTIVE ●2022年7月4日&#xff0c;巴西圣保罗医院肿瘤分子诊断中心Vitor Heidrich教授和德国朱利叶斯库恩研究所Lukas Beule教授在iMeta在线发表了题为“A…

微生物组-扩增子16S分析和可视化(2022.10)

课程改为长直播模式&#xff0c;报名后就可以学习&#xff0c;时间更充裕&#xff0c;练习更充分 具体见&#xff1a;易生信培训改为长周期模式 福利公告&#xff1a;为了响应学员的学习需求&#xff0c;经过易生信培训团队的讨论筹备&#xff0c;现决定安排扩增子16S分析、宏基…

iMeta | 易扩增子(EasyAmplicon):易用、可重复的微生物组扩增子分析流程

点击蓝字 关注我们 易扩增子(EasyAmplicon)&#xff1a;微生物组研究中易用的扩增子分析流程 iMeta主页&#xff1a;http://www.imeta.science 研究论文 ● 原文链接DOI: https://doi.org/10.1002/imt2.83 ● 2023年1月27日&#xff0c;中国农科院基因组所刘永鑫团队、中国中医…

扩增子qiime2分析流程

写在前面&#xff1a;写这篇博客只是为了总结自己对扩增子分析流程的理解&#xff0c;加深对扩增子的映像。 扩增子分析前的准备&#xff1a; 软件 qiime2&#xff08;2023.5&#xff09;qiime2官方下载地址 ###配置文件下载&#xff1a; wget https://data.qiime2.org/dis…

扩增子全长检测

在土壤、水体、粪便等样本中&#xff0c;里面的微生物有很多种类&#xff0c;其中细菌和真菌是最为常见的微生物。 在细菌的多样性研究&#xff0c;比较多的关注的是编码细菌核糖体16srRNA的序列&#xff0c;由9个可变区和保守区组成。真菌基因也是由ITS1和ITS2高变区以及多个…

扩增子测序

技术介绍 微基生物可利用二代高通量测序、三代高通量测序等平台对土壤、水体、粪便、肠道内容物、唾液、皮肤等样本中的16S rRNA基因/18S rRNA基因/ITS/功能基因等进行检测&#xff0c;检测样本中微生物的种类和相对丰度。 检测项目 16S rRNA基因测序: 16S rRNA基因为编码原…

扩增子定量检测

技术介绍 微基生物提供扩增子定量检测服务。扩增子测序是指利用二代高通量测序、三代高通量测序等平台对土壤、水体、粪便、肠道内容物、唾液、皮肤等样本中的16S rRNA基因/18S rRNA基因/ITS/功能基因等进行检测&#xff0c;检测样本中微生物的种类信息和相对丰度。相对丰度反…

扩增子分析全面升级!加量不加价,数据更多新玩法

加量不加价&#xff01; 扩增子标准分析流程全面升级&#xff01; 微生物是一类以分解代谢为主的生物类群&#xff0c;在微生物群落研究中&#xff0c;扩增子一直是了解微生物群落构成及分布的重要手段。基于marker gene的扩增子测序可以反映系统中的微生物多样性的组成。常见…

扩增子分析解读4去嵌合体,非细菌序列,生成代表性序列和OTU表

写在前面 之前发布的《扩增子图表解读》系列&#xff0c;相信关注过我的朋友大部分都看过了(链接直达7月文章目录)。这些内容的最初是写本实验室的学生们学习的材料&#xff0c;加速大家对同行文章的解读能力。 《扩增子分析解读》系列文章介绍 扩增子分析是目前宏基因组研究…

扩增子分析流程 —— 数据处理(vsearch)

本篇文章是笔者学习了刘永鑫老师的扩增子教程以后&#xff0c;根据自己的学习过程总结了一篇使用vsearch工具处理序列数据得出OTU表的文章。笔者这篇文章会根据笔者自身的学习思路&#xff0c;每一步的数据处理都会从三个方面&#xff08;是什么、为什么和怎么做&#xff09;去…