生信小白学习日记Day2-2——NGS基础 NGS分析

article/2025/9/14 11:48:59

2019年5月26日下午,无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学习的地方,在这里贴一些并就不理解之处做些笔记,仅供参考。

NGS基础——NGS分析

NGS 分析步骤

在这里插入图片描述

1. 质量分析

fastqc、multiqc、SolexaQA

测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此,非常建议在我们分析测序数据之前先搞清楚如下两个地方:

原始数据是通过哪种测序平台产生的,它们的错误率分布是怎么样的,是否有一定的偏向性和局限性,是否会显著受GC含量的影响等;评估它们有可能影响哪些方面的分析;

其中fastqc的使用和结果分析在Day1的博文中有简要介绍,另外两个软件的使用方法因为不是今天的重点,若有时间再去查阅相关文章。(在此标记出来,可能在下一篇博文中介绍)

2. 数据过滤

去除接头序列和低质量序列,常用工具:SOAPnuke、cutadapt、untrimmed、fastp、sickle、seqtk、Trimmomatic、Trim Galore(合并了FastQC和cutadapt)同样标记,具体细节查阅后再介绍

3. 比对

使用BWA(exact match)软件把这些短序列和参考基因组进行对比, 确定短序列在基因组上的位置,生成*.sam文件。标记

4. 排序

用samtools等进行比对、排序、建索引,得到reads在参考序列中的位置及质量值,并进行数据格式的转换,得到*.bam文件。标记

5. Bam文件再处理

remove duplicates → indel realign → BQSR
remove duplicates

使用Picard软件(标记)把测序产生的冗余信息和噪声去掉,并对数据质量进行评价。

在制备文库的过程中,由于PCR扩增过程中会存在一些偏差,也就是说有的序列会被过量扩增。这样,在比对的时候,这些过量扩增出来的完全相同的序列就会比对到基因组的相同位置。而这些过量扩增的reads并不是基因组自身固有序列,不能作为变异检测的证据,因此,要尽量去除这些由PCR扩增所形成的duplicates,这一步可以使用picard-tools来完成。去重复的过程是给这些序列设置一个flag以标志它们,方便GATK的识别。还可以设置 REMOVE_DUPLICATES=true丢弃duplicated序列。对于是否选择标记或者删除,对结果应该没有什么影响,GATK官方流程里面给出的例子是仅做标记不删除。这里定义的重复序列是这样的:如果两条reads具有相同的长度而且比对到了基因组的同一位置,那么就认为这样的reads是由PCR扩增而来,就会被GATK标记。

indel realign

BWA采取exact match策略,在indel附近比对效果不好,需进行局部重新比对。一般来说,绝大部分需要进行重新比对的基因组区域,都是因为插入/缺失的存在,因为在indel附近的比对会出现大量的碱基错配,这些碱基的错配很容易被误认为SNP。还有,在比对过程中,比对算法对于每一条read的处理都是独立的,不可能同时把多条reads与参考基因组比对来排错。因此,即使有一些reads能够正确的比对到indel,但那些恰恰比对到indel开始或者结束位置的read也会有很高的比对错误率,这都是需要重新比对的。Local realignment就是将由indel导致错配的区域进行重新比对,将indel附近的比对错误率降到最低。可以使用GATK工具进行indel重新比对。

BQSR(Base Quality Score Recalibration)

BQSR是对bam文件里reads的碱基质量值进行重新校正,使最后输出的bam文件中reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率。例如,在reads碱基质量值被校正之前,我们要保留质量值在Q25以上的碱基,但是实际上质量值在Q25的这些碱基的错误率在1%,也就是说质量值只有Q20,这样就会对后续的变异检测的可信度造成影响。还有,在边合成边测序的测序过程中,在reads末端碱基的错误率往往要比起始部位更高。另外,AC的质量值往往要低于TG。BQSR的就是要对这些质量值进行校正。使用GATK对重新比对的BAM文件做质量校准。

6. 获取突变

用GATK等得到**.vcf**文件,从中获取如外显子区域的数据,错义突变,热点突变,靶向药物相关的突变等感兴趣的突变信息。

7. 注释

使用Annovar对这些变异位点进行功能注释标记), 得到一个易于理解的变异位点列表。在这里插入图片描述
下面就一些格式文档进行说明,同样来自hanli0902的博文:https://blog.csdn.net/hanli1992/article/details/82790386

SAM

SAM/BAM格式专用于存储基于参考序列的比对序列,SAM(Sequence Alignment Map)是“序列比对映射”的首字母缩写,是带有比对信息的序列文件(即告诉你这个reads在染色体上的位置等),用于储存序列数据。
经过专门的比对软件,如BWA、BOWTIE2标记)等,得到的SAM文件如下所示,需要研究的就是如下这几行。
在这里插入图片描述
Coor:坐标的简写,方便查看比对
ref:参考序列
r001/2表示paired end数据,
r003是嵌合read,
r004则是原序列打断后比对结果。
这里没太看懂,有时间再查一下

BAM

BAM是(SAM的)二进制格式,因为它是压缩的、所以数据量更小;因为它是有索引的,所以可以更快地访问它。

VCF(Variant Call Format)

在这里插入图片描述
VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分。

CHROM和POS:代表参考序列名和variant的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置。

ID:variant的ID。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用’.'表示其为一个novel variant。

REFALT:参考序列的碱基 和 Variant的碱基。

QUAL:Phred格式(Phred_scaled)的质量值,表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。

FILTER:使用上一个QUAL值来进行过滤的话,是不够的。GATK能使用其它的方法来进行过滤,过滤结果中通过则该值为”PASS”;若variant不可靠,则该项不为”PASS”或”.”。

INFO: 这一行是variant的详细信息。

FORMATNA12878:这两行合起来提供了’NA12878′这个sample的基因型的信息。’NA12878′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。

GT:样品的基因型(genotype)。两个数字中间用 / 分 开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。

ADDP:AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型; DP(Depth)为sample中该位点的覆盖度。

GQ:基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越 大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。

PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能 性越小。 Phred值 = -10 * log § p为基因型存在的概率。

身体不适,有点急躁,明天再来


http://chatgpt.dhexx.cn/article/bSJRyrdM.shtml

相关文章

NGS实验室设计

NGS(Next-Generation Sequencing)实验室是进行高通量测序研究的场所,其规划布局需要考虑实验室的功能需求、设备需求、安全性、通风与空调、废弃物处理等多方面的因素。以下是NGS实验室规划布局需要考虑的几个方面: 1、实验室空间…

【gis技术】web墨卡托投影和经纬度直投的差别

本文不适用于不知道投影概念的人。 web墨卡托投影 是以经度0,纬度90为原点,x正轴朝东(右),y轴朝南(下); 格网分割为2*2格网划分,如图 经纬度直投的原点和轴向与前者一致…

墨卡托投影坐标系(Mercator Projection)原理

Web墨卡托投影坐标系: 以整个世界范围,赤道作为标准纬线,本初子午线作为中央经线,两者交点为坐标原点,向东向北为正,向西向南为负。 X轴:由于赤道半径为6378137米,则赤道周长为2*P…

网络墨卡托投影的前世今生

谷歌地图、微软地图、百度地图、腾讯地图、高德地图等网络地图所使用的投影都是网络墨卡托投影(Web Mercator),尽管我们喜欢把百度地图、高德地图称之为火星坐标系,不过它们还是没逃出网络墨卡托投影的手心。 网络墨卡托投影由墨卡…

墨卡托投影原理及瓦片公式推导

墨卡托投影 墨卡托投影将地球球面投影到一个圆柱体柱面上,将地球看作一个正球体时,以 O O O为地球球心,从球心向外辐射射线,与地球外接圆柱面交与 P ′ P P′。 设纬度为 ϕ \phi ϕ,经度为 λ \lambda λ,其中: ϕ ∈ ( − π 2 , π 2 ) \phi\in(-\frac{\pi}{2},\fr…

墨卡托投影实现

又称正轴等角圆柱投影。圆柱投影的一种,由荷兰地图学家墨卡托(G. Mercator)于1569年创拟。为地图投影方法中影响最大的。 设想一个与地轴方向一致的圆柱切于或割于地球,按等角条件将经纬网投影到圆柱面上,将圆柱面展为…

墨卡托投影推导

废话 为啥一堆人都说墨卡托投影是从圆心向圆柱面发射线, 反正我觉得不是那样, 不然公式显然就不对了(也可能是我马虎), 后来去wiki查了一下, 找到了公式的推导. 公式 x = R ( λ − λ 0 ) , y = R ln ⁡ [ tan ⁡ ( π 4 + φ 2 ) ] . {\displaystyle x=R(\lambda -\lambda …

墨卡托投影学习

看下图; 这是超图自带示例;墨卡托坐标系图层的加载; 右下角,看上去数字很大,还有五位小数,的数字,这值就是墨卡托坐标的值; 看一下代码,看不出来是墨卡托坐标系&#x…

墨卡托投影与瓦片地图

目录 一、开胃小知识 二、墨卡托投影 1、什么是墨卡托投影? 2、墨卡托投影的特点 3、墨卡托投影的缺点 三、瓦片地图 1、GIS介绍 2、瓦片地图原理 四、瓦片地图原理---续 1、经纬度 2、投影 3、瓦片 4、瓦片编号 5、关于中国的经纬度 一、开胃小知识 …

墨卡托投影简单介绍

墨卡托投影简单介绍 非洲没有想象的那么小,欧亚大陆也没有看上去那么大,一切都依赖于墨卡托投影。今天就跟小编一起来了解一下墨卡托投影吧。 1 什么是墨卡托投影? 墨卡托(Mercator)投影,又名”等角正轴圆柱投影”,荷…

横轴墨卡托投影参数_横轴墨卡托投影

说明 横轴墨卡托投影也称为高斯-克吕格投影,与墨卡托投影类似,不同之处在于圆柱与沿子午线而非赤道的球体或椭圆体相接触。通过这种方法生成的等角投影不会保持真实的方向。中央经线位于感兴趣区域的中心。这种中心对准方法可以最大程度减少该区域内所有属性的变形。此投影最…

一个小游戏让你彻底弄懂墨卡托投影

什么是墨卡托投影? 什么是墨卡托投影,这个问题我问过别人,同样也有很多人问过我。 受介质和技术的限制,我们平时看到的地图大多是平面的,那么如何将一个三维的地球画在平面上呢。 墨卡托投影就是将三维的地球表示在…

墨卡托投影

目录 一、墨卡托投影基本介绍 二、墨卡托投影由来 三、墨卡托投影的特点 四、墨卡托投影流行的原因 4.1、墨卡托投影对于航行的价值 4.2、墨卡托投影与政治 4.3、Web墨卡托投影 五、墨卡托投影的缺点 一、墨卡托投影基本介绍 墨卡托投影,是正轴等角圆柱投影…

墨卡托投影介绍

一、墨卡托投影 墨卡托投影,又称正轴等角圆柱投影,由荷兰地图学家墨卡托(G.Mercator)于1569年创拟。假设地球被套在一个圆柱中,赤道与圆柱相切,然后在地球中心放一盏灯,把球面上的图形投影到圆柱体上,再把…

Fiddler - 使用 Fiddler 监控本地 HTTP 请求,谷歌浏览器提示“隐私设置错误”

问题如下图所示,无论打开什么常用的网页,都提示这个,一开始以为在 “高级” 里点击 “继续访问” 即可,却没想到连这个按钮都没,而且每个网址访问都这样,想必是 Fiddler 在捣腾,于是想到是否证书…

使用腾讯 CDN,结果网站现在出现您的连接不是私密连接”“,”隐私设置错误”如何解决?

问题: 当配置好腾讯云CDN之后,直接访问主源站可以正常访问,但是当启动CDN加速服务后,就不能访问了。 打开高级看了一下,原来是还没有配置SSL证书。 原因: 网站引用了 https 资源,但没有在 C…

解决隐私权限原因拒审的终极方案. 在用户同意隐私政策前,您的应用获取了用户xx信息

App上架国内市场常会遇到以下原因审核被拒: 您的应用审核未通过。在用户同意隐私政策前,您的应用获取了用户的ANDROID ID,不符合应用市场审核标准。修改建议:请在用户同意隐私政策后,再申请获取用户个人信息及权限。 …

用户隐私保护指引设置~参考案例

文章目录 1. 搜索小程序2. 进入小程序详情3. 更多资料4. 小程序隐私指引5. 具体参考事项 1. 搜索小程序 这里以腾讯文档进行演示 2. 进入小程序详情 3. 更多资料 4. 小程序隐私指引 5. 具体参考事项 以实际的情况为准,这里只是演示

Chrome系浏览器,隐私错误-你的连接不是专用连接

环境 浏览器:Microsoft Edge Dev 92.0.884.2 操作系统:Win10 2004 19041.928 现象 访问不安全不是https的网站,会出现以下警告 解决方案 1.有的网站点开高级后,会出现继续访问的按钮,这种时候直接点击即可。 2.对…