NGS 数据过滤之 Trimmomatic

article/2025/9/14 11:48:59

NGS

Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE 和 PE 测序数据,同时支持 gzip 和 bzip2 压缩文件。

另外也支持 phred-33 和 phred-64 格式互相转化,现在之所以会出现 phred-33 和 phred-64 格式的困惑,都是 Illumina 公司的锅(damn you, Illumina!),不过现在绝大部分 Illumina 平台的产出数据也都转为使用 phred-33 格式了。


Trimmomatic 过滤步骤

Trimmomatic 过滤数据的步骤与命令行中过滤参数的顺序有关,通常的过滤步骤如下:

  1. ILLUMINACLIP: 过滤 reads 中的 Illumina 测序接头和引物序列,并决定是否去除反向互补的 R1/R2 中的 R2。
  2. SLIDINGWINDOW: 从 reads 的 5' 端开始,进行滑窗质量过滤,切掉碱基质量平均值低于阈值的滑窗。
  3. MAXINFO: 一个自动调整的过滤选项,在保证 reads 长度的情况下尽量降低测序错误率,最大化 reads 的使用价值。
  4. LEADING: 从 reads 的开头切除质量值低于阈值的碱基。
  5. TRAILING: 从 reads 的末尾开始切除质量值低于阈值的碱基。
  6. CROP: 从 reads 的末尾切掉部分碱基使得 reads 达到指定长度。
  7. HEADCROP: 从 reads 的开头切掉指定数量的碱基。
  8. MINLEN: 如果经过剪切后 reads 的长度低于阈值则丢弃这条 reads。
  9. AVGQUAL: 如果 reads 的平均碱基质量值低于阈值则丢弃这条 reads。
  10. TOPHRED33: 将 reads 的碱基质量值体系转为 phred-33。
  11. TOPHRED64: 将 reads 的碱基质量值体系转为 phred-64。

Trimmomatic 简单用法

由于 Trimmomatic 过滤数据的步骤与命令行中过滤参数的顺序有关,因此,如果需要去接头,建议第一步就去接头,否则接头序列被其他的过滤参数剪切掉部分之后就更难匹配更难去除干净了。

双末端测序模式

在 PE 模式下,有两个输入文件,正向测序序列和反向测序序列,但是过滤之后输出文件有四个,过滤之后双端序列都保留的就是 paired,反之如果其中一端序列过滤之后被丢弃了另一端序列保留下来了就是 unpaired

PE 模式下的输入输出文件

PE 模式下的输入输出文件

 

java -jar <path to trimmomatic.jar> PE [-threads <threads] [-phred33 | -phred64] [-trimlog
<logFile>] >] [-basein <inputBase> | <input 1> <input 2>] [-baseout <outputBase> |
<paired output 1> <unpaired output 1> <paired output 2> <unpaired output 2> <step 1> <step 2> ...

其中 -phred33 和 -phred64 参数指定 fastq 的质量值编码格式,如果不设置这个参数,软件会自动判断输入文件是哪种格式(v0.32 之后的版本都支持),虽然软件默认的参数是 phred64,如果不确定序列是哪种质量编码格式,可以不设置这个参数。

输入输出文件

PE 模式的两个输入文件:sample_R1.fastq sample_R2.fastq以及四个输出文件:sample_paired_R1.clean.fastq sample_unpaired_R1.clean.fastq sample_paired_R1.clean.fastq sample_unpaired_R1.clean.fastq

通常 PE 测序的两个文件,R1 和 R2 的文件名是类似的,因此可以使用 -basein 参数指定其中 R1 文件名即可,软件会推测出 R2 的文件名,但是这个功能实测并不好用,因为软件只能自动识别推测三种种格式的 -basein:

  • Sample_Name_R1_001.fq.gz -> Sample_Name_R2_001.fq.gz
  • Sample_Name.f.fastq -> Sample_Name.r.fastq
  • Sample_Name.1.sequence.txt -> Sample_Name.2.sequence.txt

建议不用 -basein 参数,直接指定两个文件名(R1 和 R2)作为输入。

输出文件有四个,当然也可以像上文一样指定四个文件名,但是参数太长有点麻烦,有个省心的方法,使用 -baseout 参数指定输出文件的 basename,软件会自动为四个输出文件命名。例如 -baseout mySampleFiltered.fq.gz ,文件名中添加 .gz 后缀,软件会自动将输出结果进行 gzip 压缩。输出的四个文件分别会自动命名为:

  • mySampleFiltered_1P.fq.gz - for paired forward reads
  • mySampleFiltered_1U.fq.gz - for unpaired forward reads
  • mySampleFiltered_2P.fq.gz - for paired reverse reads
  • mySampleFiltered_2U.fq.gz - for unpaired reverse reads

此外,如果直接指定输入输出文件名,文件名后添加 .gz 后缀就是告诉软件输入文件是 .gz 压缩文件,输出文件需要用 gzip 压缩。


 

转载
作者:wangpeng905
链接:https://www.jianshu.com/p/a8935adebaae
来源:简书


http://chatgpt.dhexx.cn/article/qX5X0nua.shtml

相关文章

NGS基础名词解释(1)

什么是高通量测序&#xff1f; 高通量测序技术&#xff08; High-throughput sequencing &#xff0c; HTS &#xff09;是对传统 Sanger 测序&#xff08;称为一代测序技术&#xff09;革命性的改变 , 一次对几十万到几百万条核酸分子进行序列测定 , 因此在有些文献中称其为…

【评测】NGS建库试剂盒

NGS建库试剂 一、基本信息&#xff1a; 1、产品名称&#xff1a;SynplSeq DNA Library Prep Kit for Illumina 2、货号及规格 3、保存条件&#xff1a;-20℃ 二、产品描述&#xff1a; 1、产品介绍 文库构建是NGS测序的关键环节。SynplSeq DNA Library Prep Kit for illu…

NGS分析流程

NGS实验步骤 核酸提取与检测、文库构建与文库检测、上机测序 生信分析步骤 1. 质量分析 fastqc、multiqc、SolexaQA 测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此&#xff0c;非常建议在我们分析测序数据之前先搞清楚如…

生信小白学习日记Day2-2——NGS基础 NGS分析

2019年5月26日下午&#xff0c;无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学习的地方&#xff0c;在这里贴一些并就不理解之处做些笔记&#xff0c;仅供参考。 NGS基础——NGS分析 NGS 分析步骤 1. 质量分析…

NGS实验室设计

NGS&#xff08;Next-Generation Sequencing&#xff09;实验室是进行高通量测序研究的场所&#xff0c;其规划布局需要考虑实验室的功能需求、设备需求、安全性、通风与空调、废弃物处理等多方面的因素。以下是NGS实验室规划布局需要考虑的几个方面&#xff1a; 1、实验室空间…

【gis技术】web墨卡托投影和经纬度直投的差别

本文不适用于不知道投影概念的人。 web墨卡托投影 是以经度0&#xff0c;纬度90为原点&#xff0c;x正轴朝东&#xff08;右&#xff09;&#xff0c;y轴朝南&#xff08;下&#xff09;&#xff1b; 格网分割为2*2格网划分&#xff0c;如图 经纬度直投的原点和轴向与前者一致…

墨卡托投影坐标系(Mercator Projection)原理

Web墨卡托投影坐标系&#xff1a; 以整个世界范围&#xff0c;赤道作为标准纬线&#xff0c;本初子午线作为中央经线&#xff0c;两者交点为坐标原点&#xff0c;向东向北为正&#xff0c;向西向南为负。 X轴&#xff1a;由于赤道半径为6378137米&#xff0c;则赤道周长为2*P…

网络墨卡托投影的前世今生

谷歌地图、微软地图、百度地图、腾讯地图、高德地图等网络地图所使用的投影都是网络墨卡托投影&#xff08;Web Mercator&#xff09;&#xff0c;尽管我们喜欢把百度地图、高德地图称之为火星坐标系&#xff0c;不过它们还是没逃出网络墨卡托投影的手心。 网络墨卡托投影由墨卡…

墨卡托投影原理及瓦片公式推导

墨卡托投影 墨卡托投影将地球球面投影到一个圆柱体柱面上,将地球看作一个正球体时,以 O O O为地球球心,从球心向外辐射射线,与地球外接圆柱面交与 P ′ P P′。 设纬度为 ϕ \phi ϕ,经度为 λ \lambda λ,其中: ϕ ∈ ( − π 2 , π 2 ) \phi\in(-\frac{\pi}{2},\fr…

墨卡托投影实现

又称正轴等角圆柱投影。圆柱投影的一种&#xff0c;由荷兰地图学家墨卡托&#xff08;G. Mercator&#xff09;于1569年创拟。为地图投影方法中影响最大的。 设想一个与地轴方向一致的圆柱切于或割于地球&#xff0c;按等角条件将经纬网投影到圆柱面上&#xff0c;将圆柱面展为…

墨卡托投影推导

废话 为啥一堆人都说墨卡托投影是从圆心向圆柱面发射线, 反正我觉得不是那样, 不然公式显然就不对了(也可能是我马虎), 后来去wiki查了一下, 找到了公式的推导. 公式 x = R ( λ − λ 0 ) , y = R ln ⁡ [ tan ⁡ ( π 4 + φ 2 ) ] . {\displaystyle x=R(\lambda -\lambda …

墨卡托投影学习

看下图&#xff1b; 这是超图自带示例&#xff1b;墨卡托坐标系图层的加载&#xff1b; 右下角&#xff0c;看上去数字很大&#xff0c;还有五位小数&#xff0c;的数字&#xff0c;这值就是墨卡托坐标的值&#xff1b; 看一下代码&#xff0c;看不出来是墨卡托坐标系&#x…

墨卡托投影与瓦片地图

目录 一、开胃小知识 二、墨卡托投影 1、什么是墨卡托投影&#xff1f; 2、墨卡托投影的特点 3、墨卡托投影的缺点 三、瓦片地图 1、GIS介绍 2、瓦片地图原理 四、瓦片地图原理---续 1、经纬度 2、投影 3、瓦片 4、瓦片编号 5、关于中国的经纬度 一、开胃小知识 …

墨卡托投影简单介绍

墨卡托投影简单介绍 非洲没有想象的那么小&#xff0c;欧亚大陆也没有看上去那么大&#xff0c;一切都依赖于墨卡托投影。今天就跟小编一起来了解一下墨卡托投影吧。 1 什么是墨卡托投影&#xff1f; 墨卡托(Mercator)投影&#xff0c;又名”等角正轴圆柱投影”&#xff0c;荷…

横轴墨卡托投影参数_横轴墨卡托投影

说明 横轴墨卡托投影也称为高斯-克吕格投影,与墨卡托投影类似,不同之处在于圆柱与沿子午线而非赤道的球体或椭圆体相接触。通过这种方法生成的等角投影不会保持真实的方向。中央经线位于感兴趣区域的中心。这种中心对准方法可以最大程度减少该区域内所有属性的变形。此投影最…

一个小游戏让你彻底弄懂墨卡托投影

什么是墨卡托投影&#xff1f; 什么是墨卡托投影&#xff0c;这个问题我问过别人&#xff0c;同样也有很多人问过我。 受介质和技术的限制&#xff0c;我们平时看到的地图大多是平面的&#xff0c;那么如何将一个三维的地球画在平面上呢。 墨卡托投影就是将三维的地球表示在…

墨卡托投影

目录 一、墨卡托投影基本介绍 二、墨卡托投影由来 三、墨卡托投影的特点 四、墨卡托投影流行的原因 4.1、墨卡托投影对于航行的价值 4.2、墨卡托投影与政治 4.3、Web墨卡托投影 五、墨卡托投影的缺点 一、墨卡托投影基本介绍 墨卡托投影&#xff0c;是正轴等角圆柱投影…

墨卡托投影介绍

一、墨卡托投影 墨卡托投影&#xff0c;又称正轴等角圆柱投影&#xff0c;由荷兰地图学家墨卡托(G.Mercator)于1569年创拟。假设地球被套在一个圆柱中&#xff0c;赤道与圆柱相切&#xff0c;然后在地球中心放一盏灯&#xff0c;把球面上的图形投影到圆柱体上&#xff0c;再把…

Fiddler - 使用 Fiddler 监控本地 HTTP 请求,谷歌浏览器提示“隐私设置错误”

问题如下图所示&#xff0c;无论打开什么常用的网页&#xff0c;都提示这个&#xff0c;一开始以为在 “高级” 里点击 “继续访问” 即可&#xff0c;却没想到连这个按钮都没&#xff0c;而且每个网址访问都这样&#xff0c;想必是 Fiddler 在捣腾&#xff0c;于是想到是否证书…

使用腾讯 CDN,结果网站现在出现您的连接不是私密连接”“,”隐私设置错误”如何解决?

问题&#xff1a; 当配置好腾讯云CDN之后&#xff0c;直接访问主源站可以正常访问&#xff0c;但是当启动CDN加速服务后&#xff0c;就不能访问了。 打开高级看了一下&#xff0c;原来是还没有配置SSL证书。 原因&#xff1a; 网站引用了 https 资源&#xff0c;但没有在 C…