NGS基础:测序原始数据批量下载

article/2025/9/14 10:46:29

生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里;并在文章末尾标明数据存储位置和登录号,如 The data from this study was deposited in NCBI Sequence Read Archive under accession SRA: SRP114962.

NCBI的SRA (Sequence Read Archive) 数据库(http://www.ncbi.nlm.nih.gov/sra/) 是最常用的存储测序数据的数据库。目前SRA数据的组织方式分为下面4个层次:

  1. Studies—研究课题;

  2. Experiments—实验设计;

  3. Runs—测序结果集;

  4. Samples—样品信息。

进入SRA官网:https://www.ncbi.nlm.nih.gov/sra, Search框中输入SRA编号(SRP114962),获得如下图的界面:

点击第一个样品即可查看其详细信息。

当样品比较多时,可以点击Send results to Run selector(图中画圈的位置)进入筛选页面。

从图中可发现,测序平台是Illumina HiSeq 4000,5748个Runs,每个Run的名字、样本名、测序类型(全基因组/外显子组等)、tissue、treatment等。

在如此多的Runs中,假设我们想获取其中两个病人的化疗前和化疗后的外显子组测序数据,观察其化疗前后究竟有哪些基因突变以及突变的频率怎么样。数据来自于文章 肿瘤化疗无效是对预先存在的突变的选择还是诱发新突变,Cell给你答案。

5748个Runs,有116Page,怎么找呢?

Facets下拉框中先勾选Assay Type,等待页面相应后勾选wxs,即全外显子组数据,等待页面相应。

Facets下拉框中勾选Sample name,等待页面相应后勾选ktn102ktn134两个病人的分别四个样本(四种treatment:pre、2cycleschemo、operative和blood),如图。等待页面相应。获得Run编号(蓝色框):SRR5908363、SRR5908362…

然后使用NCBI提供的工具SRAToolkit下载。

SRA toolkit https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software, 根据服务器操作系统类型下载对应的二进制编码包,下载解压放到环境变量即可使用。

使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下载SRR文件,并转换为FASTQ格式,--split-3参数表示如果是双端测序就自动拆分,如果是单端不受影响。--gzip转换fastq为压缩文件,节省空间。

下载的数据集一般比较大,放入后台不中断下载 (nohup cmd &)。

nohup fastq-dump -v --split-3 --gzip SRR5908360 &
nohup fastq-dump -v --split-3 --gzip SRR5908361 &
nohup fastq-dump -v --split-3 --gzip SRR5908362 &
nohup fastq-dump -v --split-3 --gzip SRR5908363 &
nohup fastq-dump -v --split-3 --gzip SRR5906250 &
nohup fastq-dump -v --split-3 --gzip SRR5906251 &
nohup fastq-dump -v --split-3 --gzip SRR5906252 &
nohup fastq-dump -v --split-3 --gzip SRR5906253 &

注意:如果数据量很大可能需要下载1-2天。数据下载完会在~/ncbi下面存在缓存的sra文件,记得定时清空。

按照上述步骤下载完毕后可看到很多个fastq.gz格式测序文件。

数据比较多时,一个个手动写也比较麻烦?怎么处理呢?


下载上面的metadata后自己生成一个批量下载并重命名的脚本。下下来的metadat文件通常名字是SraRunTable.txt,列很多,且是CSV文件,分隔符是逗号,某一个字段里面还有逗号的存在。Linux命令直接不好处理。

先写一个单行R脚本提取RunSample Name列,并另存到文件SraRunTable.tsv

Rscript -e 'write.table(read.table("SraRunTable.txt",sep=",", header=T, row.names=NULL)[,c("Run","Sample.Name")],"SraRunTable.tsv",sep="\t", quote=F,col.names=T, row.names=F)'

然后用awk就可以读取第一列批量下载并结合第二列批量重命名就可以了。

awk 'FNR>1{system("fastq-dump -v --split-3 --gzip "$1"; rename "$1" "$2" "$1"*");}' SraRunTable.tsv

等同于手动输入了如下命令

fastq-dump -v --split-3 --gzip SRR12603383; rename SRR12603383 PFER12d1 SRR12603383*
fastq-dump -v --split-3 --gzip SRR12603384; rename SRR12603384 PFER12d3 SRR12603384*
fastq-dump -v --split-3 --gzip SRR12603385; rename SRR12603385 PFER12d2 SRR12603385*
fastq-dump -v --split-3 --gzip SRR12603386; rename SRR12603386 PFER12d1 SRR12603386*
fastq-dump -v --split-3 --gzip SRR12603387; rename SRR12603387 PFER9d3 SRR12603387*
fastq-dump -v --split-3 --gzip SRR12603388; rename SRR12603388 PFER9d2 SRR12603388*
fastq-dump -v --split-3 --gzip SRR12603389; rename SRR12603389 PFER9d1 SRR12603389*
fastq-dump -v --split-3 --gzip SRR12603390; rename SRR12603390 PFER9d3 SRR12603390*

这个为生信学习和生信作图打造的开源R教程真香!!!

这个为生信学习打造的开源Linux教程真香!!!

  • NGS基础 - FASTQ格式解释和质量评估

  • NGS基础 - 高通量测序原理

  • NGS基础 - 参考基因组和基因注释文件

  • NGS基础 - GTF/GFF文件格式解读和转换

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

 

(请备注姓名-学校/企业-职务等)


http://chatgpt.dhexx.cn/article/HwaS4jxD.shtml

相关文章

NGS之数据格式

生物信息中常见的几种数据格式有:fasta、fastq、bam、sam、vcf、bed、gff。 参考:http://www.biotrainee.com/thread-42-1-1.html FASTQ 参考:https://en.wikipedia.org/wiki/FASTQ_format fastq格式是文本格式。它有对应序列字符的质量分数&#xff…

生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习。今天就昨天Day2-2的一些标记加以查询说明,仅供参考。 NGS基础 NGS分析注解 1. 质量分析软件 昨天提到,拿到数据后可以通过一些软件来评估测序质量的好坏,…

NGS 数据过滤之 Trimmomatic

NGS Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE 和 PE 测序数据,同时支持 gzip 和 bzip2 压缩文…

NGS基础名词解释(1)

什么是高通量测序? 高通量测序技术( High-throughput sequencing , HTS )是对传统 Sanger 测序(称为一代测序技术)革命性的改变 , 一次对几十万到几百万条核酸分子进行序列测定 , 因此在有些文献中称其为…

【评测】NGS建库试剂盒

NGS建库试剂 一、基本信息: 1、产品名称:SynplSeq DNA Library Prep Kit for Illumina 2、货号及规格 3、保存条件:-20℃ 二、产品描述: 1、产品介绍 文库构建是NGS测序的关键环节。SynplSeq DNA Library Prep Kit for illu…

NGS分析流程

NGS实验步骤 核酸提取与检测、文库构建与文库检测、上机测序 生信分析步骤 1. 质量分析 fastqc、multiqc、SolexaQA 测序数据的质量好坏会影响我们的下游分析。但不同的测序平台其测序错误率的图谱都是有差别的。因此,非常建议在我们分析测序数据之前先搞清楚如…

生信小白学习日记Day2-2——NGS基础 NGS分析

2019年5月26日下午,无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学习的地方,在这里贴一些并就不理解之处做些笔记,仅供参考。 NGS基础——NGS分析 NGS 分析步骤 1. 质量分析…

NGS实验室设计

NGS(Next-Generation Sequencing)实验室是进行高通量测序研究的场所,其规划布局需要考虑实验室的功能需求、设备需求、安全性、通风与空调、废弃物处理等多方面的因素。以下是NGS实验室规划布局需要考虑的几个方面: 1、实验室空间…

【gis技术】web墨卡托投影和经纬度直投的差别

本文不适用于不知道投影概念的人。 web墨卡托投影 是以经度0,纬度90为原点,x正轴朝东(右),y轴朝南(下); 格网分割为2*2格网划分,如图 经纬度直投的原点和轴向与前者一致…

墨卡托投影坐标系(Mercator Projection)原理

Web墨卡托投影坐标系: 以整个世界范围,赤道作为标准纬线,本初子午线作为中央经线,两者交点为坐标原点,向东向北为正,向西向南为负。 X轴:由于赤道半径为6378137米,则赤道周长为2*P…

网络墨卡托投影的前世今生

谷歌地图、微软地图、百度地图、腾讯地图、高德地图等网络地图所使用的投影都是网络墨卡托投影(Web Mercator),尽管我们喜欢把百度地图、高德地图称之为火星坐标系,不过它们还是没逃出网络墨卡托投影的手心。 网络墨卡托投影由墨卡…

墨卡托投影原理及瓦片公式推导

墨卡托投影 墨卡托投影将地球球面投影到一个圆柱体柱面上,将地球看作一个正球体时,以 O O O为地球球心,从球心向外辐射射线,与地球外接圆柱面交与 P ′ P P′。 设纬度为 ϕ \phi ϕ,经度为 λ \lambda λ,其中: ϕ ∈ ( − π 2 , π 2 ) \phi\in(-\frac{\pi}{2},\fr…

墨卡托投影实现

又称正轴等角圆柱投影。圆柱投影的一种,由荷兰地图学家墨卡托(G. Mercator)于1569年创拟。为地图投影方法中影响最大的。 设想一个与地轴方向一致的圆柱切于或割于地球,按等角条件将经纬网投影到圆柱面上,将圆柱面展为…

墨卡托投影推导

废话 为啥一堆人都说墨卡托投影是从圆心向圆柱面发射线, 反正我觉得不是那样, 不然公式显然就不对了(也可能是我马虎), 后来去wiki查了一下, 找到了公式的推导. 公式 x = R ( λ − λ 0 ) , y = R ln ⁡ [ tan ⁡ ( π 4 + φ 2 ) ] . {\displaystyle x=R(\lambda -\lambda …

墨卡托投影学习

看下图; 这是超图自带示例;墨卡托坐标系图层的加载; 右下角,看上去数字很大,还有五位小数,的数字,这值就是墨卡托坐标的值; 看一下代码,看不出来是墨卡托坐标系&#x…

墨卡托投影与瓦片地图

目录 一、开胃小知识 二、墨卡托投影 1、什么是墨卡托投影? 2、墨卡托投影的特点 3、墨卡托投影的缺点 三、瓦片地图 1、GIS介绍 2、瓦片地图原理 四、瓦片地图原理---续 1、经纬度 2、投影 3、瓦片 4、瓦片编号 5、关于中国的经纬度 一、开胃小知识 …

墨卡托投影简单介绍

墨卡托投影简单介绍 非洲没有想象的那么小,欧亚大陆也没有看上去那么大,一切都依赖于墨卡托投影。今天就跟小编一起来了解一下墨卡托投影吧。 1 什么是墨卡托投影? 墨卡托(Mercator)投影,又名”等角正轴圆柱投影”,荷…

横轴墨卡托投影参数_横轴墨卡托投影

说明 横轴墨卡托投影也称为高斯-克吕格投影,与墨卡托投影类似,不同之处在于圆柱与沿子午线而非赤道的球体或椭圆体相接触。通过这种方法生成的等角投影不会保持真实的方向。中央经线位于感兴趣区域的中心。这种中心对准方法可以最大程度减少该区域内所有属性的变形。此投影最…

一个小游戏让你彻底弄懂墨卡托投影

什么是墨卡托投影? 什么是墨卡托投影,这个问题我问过别人,同样也有很多人问过我。 受介质和技术的限制,我们平时看到的地图大多是平面的,那么如何将一个三维的地球画在平面上呢。 墨卡托投影就是将三维的地球表示在…

墨卡托投影

目录 一、墨卡托投影基本介绍 二、墨卡托投影由来 三、墨卡托投影的特点 四、墨卡托投影流行的原因 4.1、墨卡托投影对于航行的价值 4.2、墨卡托投影与政治 4.3、Web墨卡托投影 五、墨卡托投影的缺点 一、墨卡托投影基本介绍 墨卡托投影,是正轴等角圆柱投影…