NGS之数据格式

article/2025/9/14 11:46:40

生物信息中常见的几种数据格式有:fasta、fastq、bam、sam、vcf、bed、gff。

参考:http://www.biotrainee.com/thread-42-1-1.html

FASTQ

参考:https://en.wikipedia.org/wiki/FASTQ_format
fastq格式是文本格式。它有对应序列字符的质量分数,出于简洁的目的用ASCII字符来表示,所以fastq格式常用于高通量测试数据的存储。

fastq格式常以四部分组成。

第一部分:序列名称。以 @ 开始紧接着是序列的标识符和可选择的描述信息,和fasta格式的头行很相似。

第二部分:序列碱基。是原始序列信息。

第三部分:以 + 开始,后面可再接与第一部分的相同的序列标识符或者描述信息。

第四部分:碱基的质量。以ASCII字符表示第二行碱基序列的测序质量。! 表示最低的质量而 ~ 表示最高质量。
 

@IL38_2670:1:42:1707:2025/2
CTTTTTTTTTTTTTTTTTTTTTTTTTGTTCTTTTTTTCTTTTTTTTTTTTTTTT
+
())+22;;99-A0B=/=--<=?4+;*=*+A,A<?992()==9<9---=9?A@>@

fastq转换fasta格式:

zcat input_file.fastq.gz | awk 'NR%4==1{printf ">%s\n", substr($0,2)}NR%4==2{print}' > output_file.fa

FASTA


参考:https://en.wikipedia.org/wiki/FASTA_format
fasta格式是生物信息最基本的文本格式,用来展示碱基序列或者氨基酸序列。fasta格式的简洁性有利于文本编辑工具和脚本语言如:Python,Rudy,Perl的编辑操作。

在fasta文件的第一行(header line)通常以";" 或者 ">"开头,用来分割不同的序列。
 

>MAL1
CTAAACCTAAACCTAAACCCTGAACCCTAAACCCTAAACCCTGAACCCTAAACCCTGAAC
CCTGAACCCTAAACCCTGAACCCTAAACCCTGAACCCTGAACCCTAAACCCTAAACCCTA

下面的代码中,

第一部分:NCBI用seqID定义了一个唯一的标识在header line并且指出了序列来源的数据库等信息,即 >gi|55417888|dbj|BA000005.3|。一个空格符之后的 Homo sapiens genomic DNA, chromosome 21q 为描述信息。

第二部分:即是氨基酸或者碱基序列。

>gi|55417888|dbj|BA000005.3| Homo sapiens genomic DNA, chromosome 21q
CATGTTTCCACTTACAGATCCTTCAAAAAGAGTGTTTCAAAACTGCTCTATGAAAAGGAATGTTCAACTC
TGTGAGTTAAATAAAAGCATCAAAAAAAAGTTTCTGAGAATGCTTCTGTCTAGTTTTTATGTGAAGATAT

SAM


参考:http://samtools.github.io/hts-specs/SAMv1.pd
sam格式是文本格式,用来表示短序列片段比对参考序列片段的结果(reads map reference genome)。在高通量测序时经常使用。

sam格式以两部分组成。

第一部分:头行(header line)以 @ 开始,紧接着一个或两个字母,比如下列代码中的 SQ 表示参考序列信息,SN表示参考序列名称,LN表示参考序列长度,PG表示软件,ID表示项目记录号(唯一),PN表示软件名称,VN表示软件版本,CL表示命令行等等(全部解释信息可见参考链接)。

    第二部分:比对结果部分(alignment section),每一行表示片段比对信息,共有十一列。

        1 查询序列名称(query template name),是字符串类型,即下列代码的 IL38_2670:1:42:1707:2025  
        2 标识(flag)以整数的形式表示比对的结果,如 16
        3 参考序列的名称(reference sequence name),如 MAL1
        4 第一个碱基比对上的位置(position),没有比对上用0表示,比对上了从1开始计数,如 153717
        5 比对质量(mapping quality),用-10log 10 Pr{mapping position is wrong}计算,粗略近似为从0开始的整数,如:0
        6 CIGAR字符串,是比对的详细信息,使用数字加字母表示比对结果,如31M1D23M 表示31个比对上了1个缺失了最后23个比对上了(还有I表示相对 参考序列是插入的碱基,N跳过了这个区域??(什么叫skip掉?不懂求大神解释和deletion有什么区别),P有缺口等等)
        7 测序中下一个短片段比对上参考序列的名称,没有用*表示,和上一个相同用=表示,如下列代码的*
        8 测序中下一个短片段比对上参考序列的位置,没有用0表示,如下列代码的0
        9 序列模板长度(signed observed template length),如果同一个片段都比对上了同一个参考序列,为最左边的碱基位置到最右边的碱基位置(左为正,右为负),当是single-segment比对上或者不可用时记为0
        10 短序列(reads/segments)的信息,如下图中的AAAAAAAAAAAAAAAAGAAAAAAAGAACAAAAAAAAAAAAAAAAAAAAAAAAAG
        11 比对的质量和fastq文件中记录的相同,如下图的@>@A?9=---9<9==)(299?<A,A+*=*;+4?=<--=/=B0A-99;;22+))(
        最后还有可以选择的信息用TAG:TYPE:VALUE表示。

BAM


bam是sam的二进制格式,为了减少sam文件的储存量。

附格式转换:

sam格式转换成bam格式:

samtools view -bS toy.sam > toy.bam

VCF


vcf(variant calling format)用来表示突变的信息。

vcf格式以两部分组成。第一部分:头行(vcf header),以##开头,有文件格式,使用软件信息,参考序列信息,重叠群(contig)的相关信息(拼接时reads之间的overlap区域)等等。

第二部分:具体的突变信息,共有八列。

1 染色体名称(chromosome),哪一个参考序列上发现了突变,如MAL1

2 发生突变的位置,以1开始计算,如265854

3 突变的ID

4 参考序列上的碱基,如T

5 发生突变的碱基,如C

6 发生突变的碱基质量,如6.2

7 过滤后的状态

8 额外的信息

##fileformat=VCFv4.1
##samtoolsVersion=0.1.19-44428cd
##reference=file://3D7.version2.1.4.fasta
##contig=<ID=MAL1,length=643292>
##contig=<ID=MAL10,length=1687655>
##INFO=<ID=DP,Number=1,Type=Integer,Description="Raw read depth">
##INFO=<ID=DP4,Number=4,Type=Integer,Description="# high-quality ref-forward bases, ref-reverse, alt-f
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=GL,Number=3,Type=Float,Description="Likelihoods for RR,RA,AA genotypes (R=ref,A=alt)">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="# high-quality bases">
##FORMAT=<ID=DV,Number=1,Type=Integer,Description="# high-quality non-reference bases">
##FORMAT=<ID=SP,Number=1,Type=Integer,Description="Phred-scaled strand bias P-value">
##FORMAT=<ID=PL,Number=G,Type=Integer,Description="List of Phred-scaled genotype likelihoods">
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  cam10.sorted.bam
MAL1    265854  .       T       C       6.2     .       DP=37;VDB=2.699794e-03;RPB=-2.646189e+00;AF1=0.4999;AC1=1;DP4=5,3,9,0;MQ=36;FQ=8.65;PV4=0.082,2.4e-10,0.18,0.37 GT:PL:DP:SP:GQ  0/1:35,0,127:17:11:36

参考:http://www.iwhgao.com/?p=1304

https://en.wikipedia.org/wiki/Variant_Call_Format

@SQ     SN:MAL1 LN:643292
@SQ     SN:MAL10        LN:1687655
@SQ     SN:MAL11        LN:2038337
@SQ     SN:MAL12        LN:2271477
@SQ     SN:MAL13        LN:2895605
@SQ     SN:MAL14        LN:3291871
@SQ     SN:MAL2 LN:947102
@SQ     SN:MAL3 LN:1060087
@SQ     SN:MAL4 LN:1204112
@SQ     SN:MAL5 LN:1343552
@SQ     SN:MAL6 LN:1418244
@SQ     SN:MAL7 LN:1501717
@SQ     SN:MAL8 LN:1419563
@SQ     SN:MAL9 LN:1541723
@PG     ID:bwa  PN:bwa  VN:0.7.12-r1039 CL:/export/common/programs/bwa-0.7.12 samse -f cam10.sam 3D7.version2.1.4.fasta cam10.sai cam10.fastq
IL38_2670:1:42:1707:2025        16      MAL1    153717  0       54M     *       0       0       AAAAAAAAAAAAAAAAGAAAAAAAGAACAAAAAAAAAAAAAAAAAAAAAAAAAG  @>@A?9=---9<9==)(299?<A,A+*=*;+4?=<--=/=B0A-99;;22+))(  XT:A:R  NM:i:2  X0:i:3  X1:i:2  XM:i:2  XO:i:0  XG:i:0  MD:Z:27A17G8

 


参考:

https://blog.csdn.net/Doris_xixi/article/details/80935603

 


http://chatgpt.dhexx.cn/article/m50RuDuG.shtml

相关文章

生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

2019年5月27日&#xff0c;天气舒适&#xff0c;忙碌一天之后开始今天的生信学习。今天就昨天Day2-2的一些标记加以查询说明&#xff0c;仅供参考。 NGS基础 NGS分析注解 1. 质量分析软件 昨天提到&#xff0c;拿到数据后可以通过一些软件来评估测序质量的好坏&#xff0c;…

NGS 数据过滤之 Trimmomatic

NGS Trimmomatic 支持多线程&#xff0c;处理数据速度快&#xff0c;主要用来去除 Illumina 平台的 Fastq 序列中的接头&#xff0c;并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式&#xff0c;分别对应 SE 和 PE 测序数据&#xff0c;同时支持 gzip 和 bzip2 压缩文…

NGS基础名词解释(1)

什么是高通量测序&#xff1f; 高通量测序技术&#xff08; High-throughput sequencing &#xff0c; HTS &#xff09;是对传统 Sanger 测序&#xff08;称为一代测序技术&#xff09;革命性的改变 , 一次对几十万到几百万条核酸分子进行序列测定 , 因此在有些文献中称其为…

【评测】NGS建库试剂盒

NGS建库试剂 一、基本信息&#xff1a; 1、产品名称&#xff1a;SynplSeq DNA Library Prep Kit for Illumina 2、货号及规格 3、保存条件&#xff1a;-20℃ 二、产品描述&#xff1a; 1、产品介绍 文库构建是NGS测序的关键环节。SynplSeq DNA Library Prep Kit for illu…

NGS分析流程

NGS实验步骤 核酸提取与检测、文库构建与文库检测、上机测序 生信分析步骤 1. 质量分析 fastqc、multiqc、SolexaQA 测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此&#xff0c;非常建议在我们分析测序数据之前先搞清楚如…

生信小白学习日记Day2-2——NGS基础 NGS分析

2019年5月26日下午&#xff0c;无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学习的地方&#xff0c;在这里贴一些并就不理解之处做些笔记&#xff0c;仅供参考。 NGS基础——NGS分析 NGS 分析步骤 1. 质量分析…

NGS实验室设计

NGS&#xff08;Next-Generation Sequencing&#xff09;实验室是进行高通量测序研究的场所&#xff0c;其规划布局需要考虑实验室的功能需求、设备需求、安全性、通风与空调、废弃物处理等多方面的因素。以下是NGS实验室规划布局需要考虑的几个方面&#xff1a; 1、实验室空间…

【gis技术】web墨卡托投影和经纬度直投的差别

本文不适用于不知道投影概念的人。 web墨卡托投影 是以经度0&#xff0c;纬度90为原点&#xff0c;x正轴朝东&#xff08;右&#xff09;&#xff0c;y轴朝南&#xff08;下&#xff09;&#xff1b; 格网分割为2*2格网划分&#xff0c;如图 经纬度直投的原点和轴向与前者一致…

墨卡托投影坐标系(Mercator Projection)原理

Web墨卡托投影坐标系&#xff1a; 以整个世界范围&#xff0c;赤道作为标准纬线&#xff0c;本初子午线作为中央经线&#xff0c;两者交点为坐标原点&#xff0c;向东向北为正&#xff0c;向西向南为负。 X轴&#xff1a;由于赤道半径为6378137米&#xff0c;则赤道周长为2*P…

网络墨卡托投影的前世今生

谷歌地图、微软地图、百度地图、腾讯地图、高德地图等网络地图所使用的投影都是网络墨卡托投影&#xff08;Web Mercator&#xff09;&#xff0c;尽管我们喜欢把百度地图、高德地图称之为火星坐标系&#xff0c;不过它们还是没逃出网络墨卡托投影的手心。 网络墨卡托投影由墨卡…

墨卡托投影原理及瓦片公式推导

墨卡托投影 墨卡托投影将地球球面投影到一个圆柱体柱面上,将地球看作一个正球体时,以 O O O为地球球心,从球心向外辐射射线,与地球外接圆柱面交与 P ′ P P′。 设纬度为 ϕ \phi ϕ,经度为 λ \lambda λ,其中: ϕ ∈ ( − π 2 , π 2 ) \phi\in(-\frac{\pi}{2},\fr…

墨卡托投影实现

又称正轴等角圆柱投影。圆柱投影的一种&#xff0c;由荷兰地图学家墨卡托&#xff08;G. Mercator&#xff09;于1569年创拟。为地图投影方法中影响最大的。 设想一个与地轴方向一致的圆柱切于或割于地球&#xff0c;按等角条件将经纬网投影到圆柱面上&#xff0c;将圆柱面展为…

墨卡托投影推导

废话 为啥一堆人都说墨卡托投影是从圆心向圆柱面发射线, 反正我觉得不是那样, 不然公式显然就不对了(也可能是我马虎), 后来去wiki查了一下, 找到了公式的推导. 公式 x = R ( λ − λ 0 ) , y = R ln ⁡ [ tan ⁡ ( π 4 + φ 2 ) ] . {\displaystyle x=R(\lambda -\lambda …

墨卡托投影学习

看下图&#xff1b; 这是超图自带示例&#xff1b;墨卡托坐标系图层的加载&#xff1b; 右下角&#xff0c;看上去数字很大&#xff0c;还有五位小数&#xff0c;的数字&#xff0c;这值就是墨卡托坐标的值&#xff1b; 看一下代码&#xff0c;看不出来是墨卡托坐标系&#x…

墨卡托投影与瓦片地图

目录 一、开胃小知识 二、墨卡托投影 1、什么是墨卡托投影&#xff1f; 2、墨卡托投影的特点 3、墨卡托投影的缺点 三、瓦片地图 1、GIS介绍 2、瓦片地图原理 四、瓦片地图原理---续 1、经纬度 2、投影 3、瓦片 4、瓦片编号 5、关于中国的经纬度 一、开胃小知识 …

墨卡托投影简单介绍

墨卡托投影简单介绍 非洲没有想象的那么小&#xff0c;欧亚大陆也没有看上去那么大&#xff0c;一切都依赖于墨卡托投影。今天就跟小编一起来了解一下墨卡托投影吧。 1 什么是墨卡托投影&#xff1f; 墨卡托(Mercator)投影&#xff0c;又名”等角正轴圆柱投影”&#xff0c;荷…

横轴墨卡托投影参数_横轴墨卡托投影

说明 横轴墨卡托投影也称为高斯-克吕格投影,与墨卡托投影类似,不同之处在于圆柱与沿子午线而非赤道的球体或椭圆体相接触。通过这种方法生成的等角投影不会保持真实的方向。中央经线位于感兴趣区域的中心。这种中心对准方法可以最大程度减少该区域内所有属性的变形。此投影最…

一个小游戏让你彻底弄懂墨卡托投影

什么是墨卡托投影&#xff1f; 什么是墨卡托投影&#xff0c;这个问题我问过别人&#xff0c;同样也有很多人问过我。 受介质和技术的限制&#xff0c;我们平时看到的地图大多是平面的&#xff0c;那么如何将一个三维的地球画在平面上呢。 墨卡托投影就是将三维的地球表示在…

墨卡托投影

目录 一、墨卡托投影基本介绍 二、墨卡托投影由来 三、墨卡托投影的特点 四、墨卡托投影流行的原因 4.1、墨卡托投影对于航行的价值 4.2、墨卡托投影与政治 4.3、Web墨卡托投影 五、墨卡托投影的缺点 一、墨卡托投影基本介绍 墨卡托投影&#xff0c;是正轴等角圆柱投影…

墨卡托投影介绍

一、墨卡托投影 墨卡托投影&#xff0c;又称正轴等角圆柱投影&#xff0c;由荷兰地图学家墨卡托(G.Mercator)于1569年创拟。假设地球被套在一个圆柱中&#xff0c;赤道与圆柱相切&#xff0c;然后在地球中心放一盏灯&#xff0c;把球面上的图形投影到圆柱体上&#xff0c;再把…