NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

article/2025/9/14 10:45:56

NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

  • 2. MultiQC
    • 2.1 帮助信息及运行代码
    • 2.2 报告解读
    • 2.3 小结

在这里插入图片描述
文接上篇:NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC


2. MultiQC

NGS技术的进步催生了新的实验设计、分析类型和极高通量测序数据的生成。对于这些数据的质量评估,每一步分析结果的评估是后续结果可信度的衡量和保障。不少生信工具都可以给样品生成一个评估结果,如FastQC、Qualimap 和RSeQC等。但是这时又出现了一个难题,那就是几乎所有的质控工具都是针对单个样本生成一个报告,这就要求用户自己去逐一查找各个QC结果,这无疑是个十分耗时、重复又复杂的事,而且还不能快速看出所有样本的异同。

MultiQC是基于Python的小工具,能很好地解决这个问题,其强大的功能主要体现在以下三个方面:
(1) 能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;
(2) 支持多种分析类型的质控结果查看,如:RNAseqWhole-Genome SeqBisulfite SeqHi-CMultiQC_NGI
(3) 目前支持整合111种软件分析的结果,而且支持的软件还在持续增加,也可以自己写一个插件。

2.1 帮助信息及运行代码

multiqc --help
# Usage: multiqc [OPTIONS] <analysis directory>
# -n/--name # 更改输出文件的名称,默认输出文件名:multiqc_data、multiqc_report.html
# -o/-outdir # 在指定的输出目录中创建报告 #若数据在当前目录下输入multiqc . 即可
# --ignore忽略掉某些文件 #multiqc . --ignore */run_three/*/fastqc/*_R2.zip

代码如下:

cd fastqc_out_Raw/ 
multiqc . -n multiqc_Rawdata -o fastqc_out_Raw/ 
cd fastqc_out_Clean/
multiqc . -n multiqc_Cleandata -o fastqc_out_Clean/

2.2 报告解读

MultiQC将fastqc工具分析得到的10个结果分别整合成一个模块,集中查看。
在这里插入图片描述
(1) General Statistics
每一个样本reads数量、比对层面的质量评估整合统计表,点击Configure Columns可以选择显示或不显示某些项。点击Plot可以绘图。
在这里插入图片描述
点击Configure Columns选择展示哪些项:
在这里插入图片描述
点击Plot可以对任意两种属性的评估结果做交互式二维图,若各样本均一性好,散点会比较集中,反之会出现某些离散的点,这样方便查看某些指标异常的离群样本。
在这里插入图片描述
默认情况下,当一个表≥500行时,MultiQC开始使用beeswarm图。若各样本均一性好,散点会比较集中,反之会出现某些离散的点,这样方便查看某些指标异常的离群样本。
在这里插入图片描述
(2) Sequence Counts:序列计数
这里可以看到重复reads,可以看一下样品中重复unique reads和Dupliaccte reads各自的占比。
只有在每个文件的前100,000个序列中最先出现的序列才会被分析。重复检测需要在整个序列长度上进行精确的序列匹配。对于这个分析,任何长度超过75bp的读取都被截断为50bp。
在这里插入图片描述
(3) Sequence Quality Histograms :每个read各位置碱基的平均测序质量
绿色区间——质量很好;橙色区间——质量合理;红色区间——质量不好;可以看出这几个样品序列的整体测序质量还是很不错,所有的都在绿色区域。
在这里插入图片描述
(4) Per Sequence Quality Scores:具有平均质量分数的reads的数量
绿色区间——质量很好、橙色区间——质量合理、红色区间——质量不好。
在这里插入图片描述
(5) Per Base Sequence Content :每个read各位置碱基ATCG的比列
为了使多个样品能够显示在一个plot中,碱基组成数据以热图的形式显示。颜色代表了四个基色之间的平衡:一个均匀的分布应该给一个均匀的浑浊的棕色。将鼠标悬停在图上,查看光标下四个碱基的百分比。结果显示除了开头几bp序列ATCG比例差别较大,其他位置的序列ATCG比例均衡。值得注意的是,某些类型的文库总是会产生有偏倚的序列组合,通常是在测序的开始。
在这里插入图片描述
(6) Per Sequence GC Content:reads的平均GC含量
如果 reads GC含量在40%左右,且近似呈正态曲线,则表明GC含量基本正常。下图高亮了fail的两个样本。
在这里插入图片描述
(7) Per Base N Content:每条reads各位置N碱基含量比例
序列中各个位点的N含量,越小越好;正常情况下N的比例很小,所以图上常常看到一条直线。下图说明测序仪器能辨别这四个序列中每条reads的几乎每个位置的碱基。
在这里插入图片描述

(8) Sequence Length Distribution:序列长度分布
在这里插入图片描述
(9) Sequence Duplication Levels:每个序列的相对重复水平
下图显示了文库中每个序列的重复程度:不同重复程度的序列的相对数量。在不同的文库中,大多数序列只会在最终集合中出现一次。低水平的重复可能表明目标序列的覆盖水平非常高,但高水平的重复更可能表明某种富集偏倚 (如PCR过度扩增)。
这该怎么理解呢?假设一个基因组有A、B两个片段,经过PCR后得到1500A和1000B,那么多出来的500条A是重复数据,这就是大家常说的PCR bias。PCR后得到无论多少条reads,比如n条A和m条B,在数据分析的时候,都只保留1条A和1条B(unique reads)用于组装,而去掉(n-1)条A和(m-1)条B。共有(n-1)条A和(m-1)条B被当成duplicated reads看待,尽管它们是正常PCR的正常产物。所以, 目前的算法其实是一个简化的处理方案,把所有重复的reads都去掉了,留下完全不重复的reads。算法没有能力区分“假重复”(人为造成的重复序列方面的bias)和“真重复”(天然存在的重复序列)。
NGS数据的Duplication问题 这篇文章对该问题进行了讨论,对于这一部分我还是有一些疑问的,因此暂时不进行扩展。
在这里插入图片描述
(10) Overrepresented sequences:文库中过表达序列的比例
当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。
Help: FastQC calculates and lists overrepresented sequences in FastQ files. It would not be possible to show this for all samples in a MultiQC report, so instead this plot shows the number of sequences categorized as over represented.
Sometimes, a single sequence may account for a large number of reads in a dataset. To show this, the bars are split into two: the first shows the overrepresented reads that come from the single most common sequence. The second shows the total count from all remaining overrepresented sequences.
在这里插入图片描述
(11) Adapter Content:接头含量
Note that only samples with ≥ 0.1% adapter contamination are shown.
There may be several lines per sample, as one is shown for each adapter detected in the file.
From the FastQC Help:
The plot shows a cumulative percentage count of the proportion of your library which has seen each of the adapter sequences at each position. Once a sequence has been seen in a read it is counted as being present right through to the end of the read so the percentages you see will only increase as the read length goes on.

Clean data的接头含量:
在这里插入图片描述
原始下机数据的接头含量图如下:
在这里插入图片描述

(12) Status Checks
在这个热图中,将所有这些归纳为一个单一的热图,以快速总结。注意,并不是所有的FastQC部分在MultiQC报告中都有图,但是所有的状态检查都显示在这个热图中。每个FastQC部分的状态显示结果为:是否完全正常(绿色),轻微异常(橙色)或非常不正常(红色)。
在这里插入图片描述

2.3 小结

注意:尽管分析结果似乎给出了一个pass/fail的结果,但这些评估必须结合特定的研究设计、文库构建方案等进行。在FastQC看来,一个“正常”的样品是随机和多样的。有些实验可能会产生某些特定方面有偏倚(bias)的库。因此,需结合评估结果,理解为什么文库看起来不是随机和多样化的。

参考阅读:
整合QC质控结果的利器——MultiQC
生信技能树,lncRNA组装流程的软件介绍之MultiQC
从零开始完整学习全基因组测序数据分析:第3节 数据质控
从零开始完整学习全基因组测序数据分析: Trimmomatic、SOAPnuke、sickle和seqtk的比较
从零开始完整学习全基因组测序数据分析:第4节 构建WGS主流程
NGS数据的Duplication问题:http://blog.sina.com.cn/s/blog_8de3399d0102wy3f.html


http://chatgpt.dhexx.cn/article/jgwlrJZI.shtml

相关文章

NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

NGS数据分析实践&#xff1a;03. 涉及的常用数据格式[2] - sam/bam格式 2. sam和bam格式 系列文章&#xff1a; 二代测序方法&#xff1a;DNA测序之靶向重测序 NGS数据分析实践&#xff1a;00. 变异识别的基本流程 NGS数据分析实践&#xff1a;01. Conda环境配置及软件安装 NGS…

NGS数据过滤之trimmomatic

NGS 原始数据过滤对后续分析至关重要&#xff0c;去除一些无用的序列也可以提高后续分析的准确率和效率。Trimmomatic 是一个功能强大的数据过滤软件。 Trimmomatic 介绍 Trimmomatic 发表的文章至今已被引用了 2810 次&#xff0c;是一个广受欢迎的 Illumina 平台数据过滤工具…

NGS基础:测序原始数据批量下载

生物或医学中涉及高通量测序的论文&#xff0c;一般会将原始测序数据上传到公开的数据库&#xff0c;上传方式见测序文章数据上传找哪里&#xff1b;并在文章末尾标明数据存储位置和登录号,如 The data from this study was deposited in NCBI Sequence Read Archive under acc…

NGS之数据格式

生物信息中常见的几种数据格式有:fasta、fastq、bam、sam、vcf、bed、gff。 参考&#xff1a;http://www.biotrainee.com/thread-42-1-1.html FASTQ 参考&#xff1a;https://en.wikipedia.org/wiki/FASTQ_format fastq格式是文本格式。它有对应序列字符的质量分数&#xff…

生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

2019年5月27日&#xff0c;天气舒适&#xff0c;忙碌一天之后开始今天的生信学习。今天就昨天Day2-2的一些标记加以查询说明&#xff0c;仅供参考。 NGS基础 NGS分析注解 1. 质量分析软件 昨天提到&#xff0c;拿到数据后可以通过一些软件来评估测序质量的好坏&#xff0c;…

NGS 数据过滤之 Trimmomatic

NGS Trimmomatic 支持多线程&#xff0c;处理数据速度快&#xff0c;主要用来去除 Illumina 平台的 Fastq 序列中的接头&#xff0c;并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式&#xff0c;分别对应 SE 和 PE 测序数据&#xff0c;同时支持 gzip 和 bzip2 压缩文…

NGS基础名词解释(1)

什么是高通量测序&#xff1f; 高通量测序技术&#xff08; High-throughput sequencing &#xff0c; HTS &#xff09;是对传统 Sanger 测序&#xff08;称为一代测序技术&#xff09;革命性的改变 , 一次对几十万到几百万条核酸分子进行序列测定 , 因此在有些文献中称其为…

【评测】NGS建库试剂盒

NGS建库试剂 一、基本信息&#xff1a; 1、产品名称&#xff1a;SynplSeq DNA Library Prep Kit for Illumina 2、货号及规格 3、保存条件&#xff1a;-20℃ 二、产品描述&#xff1a; 1、产品介绍 文库构建是NGS测序的关键环节。SynplSeq DNA Library Prep Kit for illu…

NGS分析流程

NGS实验步骤 核酸提取与检测、文库构建与文库检测、上机测序 生信分析步骤 1. 质量分析 fastqc、multiqc、SolexaQA 测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此&#xff0c;非常建议在我们分析测序数据之前先搞清楚如…

生信小白学习日记Day2-2——NGS基础 NGS分析

2019年5月26日下午&#xff0c;无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学习的地方&#xff0c;在这里贴一些并就不理解之处做些笔记&#xff0c;仅供参考。 NGS基础——NGS分析 NGS 分析步骤 1. 质量分析…

NGS实验室设计

NGS&#xff08;Next-Generation Sequencing&#xff09;实验室是进行高通量测序研究的场所&#xff0c;其规划布局需要考虑实验室的功能需求、设备需求、安全性、通风与空调、废弃物处理等多方面的因素。以下是NGS实验室规划布局需要考虑的几个方面&#xff1a; 1、实验室空间…

【gis技术】web墨卡托投影和经纬度直投的差别

本文不适用于不知道投影概念的人。 web墨卡托投影 是以经度0&#xff0c;纬度90为原点&#xff0c;x正轴朝东&#xff08;右&#xff09;&#xff0c;y轴朝南&#xff08;下&#xff09;&#xff1b; 格网分割为2*2格网划分&#xff0c;如图 经纬度直投的原点和轴向与前者一致…

墨卡托投影坐标系(Mercator Projection)原理

Web墨卡托投影坐标系&#xff1a; 以整个世界范围&#xff0c;赤道作为标准纬线&#xff0c;本初子午线作为中央经线&#xff0c;两者交点为坐标原点&#xff0c;向东向北为正&#xff0c;向西向南为负。 X轴&#xff1a;由于赤道半径为6378137米&#xff0c;则赤道周长为2*P…

网络墨卡托投影的前世今生

谷歌地图、微软地图、百度地图、腾讯地图、高德地图等网络地图所使用的投影都是网络墨卡托投影&#xff08;Web Mercator&#xff09;&#xff0c;尽管我们喜欢把百度地图、高德地图称之为火星坐标系&#xff0c;不过它们还是没逃出网络墨卡托投影的手心。 网络墨卡托投影由墨卡…

墨卡托投影原理及瓦片公式推导

墨卡托投影 墨卡托投影将地球球面投影到一个圆柱体柱面上,将地球看作一个正球体时,以 O O O为地球球心,从球心向外辐射射线,与地球外接圆柱面交与 P ′ P P′。 设纬度为 ϕ \phi ϕ,经度为 λ \lambda λ,其中: ϕ ∈ ( − π 2 , π 2 ) \phi\in(-\frac{\pi}{2},\fr…

墨卡托投影实现

又称正轴等角圆柱投影。圆柱投影的一种&#xff0c;由荷兰地图学家墨卡托&#xff08;G. Mercator&#xff09;于1569年创拟。为地图投影方法中影响最大的。 设想一个与地轴方向一致的圆柱切于或割于地球&#xff0c;按等角条件将经纬网投影到圆柱面上&#xff0c;将圆柱面展为…

墨卡托投影推导

废话 为啥一堆人都说墨卡托投影是从圆心向圆柱面发射线, 反正我觉得不是那样, 不然公式显然就不对了(也可能是我马虎), 后来去wiki查了一下, 找到了公式的推导. 公式 x = R ( λ − λ 0 ) , y = R ln ⁡ [ tan ⁡ ( π 4 + φ 2 ) ] . {\displaystyle x=R(\lambda -\lambda …

墨卡托投影学习

看下图&#xff1b; 这是超图自带示例&#xff1b;墨卡托坐标系图层的加载&#xff1b; 右下角&#xff0c;看上去数字很大&#xff0c;还有五位小数&#xff0c;的数字&#xff0c;这值就是墨卡托坐标的值&#xff1b; 看一下代码&#xff0c;看不出来是墨卡托坐标系&#x…

墨卡托投影与瓦片地图

目录 一、开胃小知识 二、墨卡托投影 1、什么是墨卡托投影&#xff1f; 2、墨卡托投影的特点 3、墨卡托投影的缺点 三、瓦片地图 1、GIS介绍 2、瓦片地图原理 四、瓦片地图原理---续 1、经纬度 2、投影 3、瓦片 4、瓦片编号 5、关于中国的经纬度 一、开胃小知识 …

墨卡托投影简单介绍

墨卡托投影简单介绍 非洲没有想象的那么小&#xff0c;欧亚大陆也没有看上去那么大&#xff0c;一切都依赖于墨卡托投影。今天就跟小编一起来了解一下墨卡托投影吧。 1 什么是墨卡托投影&#xff1f; 墨卡托(Mercator)投影&#xff0c;又名”等角正轴圆柱投影”&#xff0c;荷…