NGS 测序深度和覆盖度—Depth、Coverage

article/2025/10/23 10:26:01

文章目录

- 前言
- 这是比较基本的两个概念：
- 二者的关系：
- 例子：
- - 使用**bamdst**计算覆盖度
  - - 安装
  - 使用
  - - 参考：

前言

温故而知新，刚入门的时候没有好好记笔记，现在补上😑
公众号：猪猪的乌托邦

这是比较基本的两个概念：

覆盖度（Coverage）：测序获得的序列占整个基因组的比例。即基因组上至少被检测到一次的区域，占整个基因组的比例。一般为「百分比」
深度（Depth）：一般用1× 、2×、3×……表示。测序的得到的总碱基数与待测基因组大小的比值，即基因组中每个碱基被测到的平均次数，简而言之，测序的数据量比上参考基因组或者转录组的值。

PS：这两个概念在很多文章中的表述都不一样，具体要根据描述，是哪种概念

如图所示，两个概念在两个“维度”，描述了测序的情况（横向：覆盖度Coverage；纵向：深度Depth）
图片来源：https://www.youtube.com/watch?v=3oNCSRyHWO8
二者一定程度上决定了特定碱基位置发现的变异是否具有某种水平的可信度，如果有较高的深度和覆盖度，每个碱基被较多的Reads覆盖，因此碱基也有着较高的可信度。

对二者的要求因事而异：

测序方法	推荐深度
全基因组测序（WGS）	人类全基因组测序为30×~50×（具体取决于应用和统计模型）
全外显子组测序	100 ×
RNA测序	检测罕见表达基因时，需要更高覆盖度和深度。
ChIP-Seq	100 ×

更多NGS的Depth和Coverage建议参考：https://genohub.com/recommended-sequencing-coverage-by-application/

假设基因组大小为N，每次测序都可以在基因组的任意位置随即检测一个碱基，那么对于基因组上的一个固定位置的碱基，在一次测序中，该碱基被测到的概率是P(P=1/N)，其他部分的概率为1-P，该碱基对于深度的分布，就是检测到n次的概率，服从泊松分布，由于概率极低，检测次数极大，该分布又接近于正态分布。

一般使用直方图呈现整个数据集测序情况。直方图通过显示不同深度下Mapped Reads所覆盖的参考碱基数量来表明整体覆盖度分布.

在这里插入图片描述

理想情况下，该图形状应类似泊松分布并且标准偏差较小，如左图所示。该分布有效的前提是：Reads随机分布于整个基因组，并且整个测序运行期间对Reads间真实重叠的检测能力不变。但出于各种原因，实际覆盖度直方图可能会很宽（即深度区间宽）或呈非泊松分布，如欠佳测序覆盖度直方图示例（右图）所示。

评估NGS测序的常用指标：

四分位数间距（IQR）：IQR是直方图中75与25百分位数之间的Depth差。该值用于衡量统计学变异性，可反映数据集范围内的不均一程度。在上述直方图示例中，左侧的直方图中IQR更低，表明其测序深度均一性优于右侧直方图。
平均Mapped Reads深度，是各参考碱基位置上Mapped reads深度的总和除以参考中已知碱基的数量得到的值。表示特定参考碱基位置上可能匹配的平均Reads数。
原始Read深度，该值是仪器所产生的序列数据总量（比对前）除以参考基因组大小得到的值。虽然测序仪器供应商通常会在性能参数中给出原始read深度，但该深度并未考虑到比对过程的效率。如果比对过程中有大部分原始测序Read剔除，则比对后得到的Mapped Reads深度会远小于原始Read深度。

二者的关系：

在这里插入图片描述

例子：

测序公司使用Illumina PE150的测序平台，双端测序技术，生成150 bp的reads，单端Reads数目为3300000，测序的基因组大小为760 Mb，那么：（1G=1024Mb；1Mb=1024kb；1kb=1000bp）

$\frac{150 × 2 × 3300000}{760×1024×1000} = 0.127$

如果测1G的数据量，那么：

$\frac{1×1024×1024×1000}{760×1024×1000} = 1.347$

使用bamdst计算覆盖度

安装

cd ~/tools && git clone https://github.com/shiquan/bamdst.git && cd bamdst
make
./bamdst -h

在这里插入图片描述

使用

#需要一个bed文件
cat test.bed 
# chr01  2983  10815
mkdir ~/t
./bamdst -p test.bed -o ~/t test.bam
#输出：
ls ~/t
#chromosomes.report  depth_distribution.plot  insertsize.plot  uncover.bed
#coverage.report     depth.tsv.gz             region.tsv.gz
cat ~/t/chromosomes.report
#Chromosome     DATA(%)   Avg depth      Median   Coverage%    Cov 4x %   Cov 10x %   Cov 30x %  Cov 100x %
#      chr01    100.00      4.23        3.0     95.77     44.34      6.83      0.00      0.00

参考：

https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/coverage.html
https://www.youtube.com/watch?v=3oNCSRyHWO8
https://genohub.com/recommended-sequencing-coverage-by-application/
https://www.jieandze1314.com/post/cnposts/239/
http://www.im.cas.cn/kytjpt/jsjl/201412/P020141208537486451133.pdf