148-如何根据SRA数据库的SRS ID下载数据

刘小泽写于19.11.28 平时我们下载数据一般都是直接找到SRR 列表,然后prefetch一下,方便快捷。但是当你只有SRS编号时呢?

首先来认识一下什么是SRS编号

SRA数据库的架构是这样的:

SRP(项目 Project)—>SRS(样本 Sample)—>SRX(数据产生 Experiment)—>SRR(数据本身)

首先要知道国际上的三大生物数据库:SRA, ENA or DDBJ,分别在美国、欧洲、日本

生物项目(BioProjects)是最顶层的,根据不同的数据库,它的前缀是PRJ 或者 SRP/ERP/DRP; 其中包含一个或多个的生物样本(BioSamples),它的前缀是SAMN 或者SRS/ERS/DRS; 一个BioSample虽然只是一个样本,但它可以使用多种实验处理,也就是Experiments,前缀是SRX/ERX/DRX; 每个实验都会有一个数据产出Run,它的前缀是SRR/ERR/DRR

因此,一个SRS或许会包含多个实验产生的多个数据,也就可能对应多个SRR号

其实我们最感兴趣的也就是Runs的最终数据,它包含了reads的信息。而prefetch是针对SRR或ERR这样的数据本身的,并不能直接去下载SRS,需要先利用SRS ID得到SRR ID

怎么将SRS转成SRR

来自:https://www.biostars.org/p/347050/

比如想要下载:

可以直接用SRS551840

esearch -db sra -query SRS551840 | efetch --format runinfo | cut -d ',' -f 1 | grep SRR

然后你就会看到:

SRR1159129
SRR1159377
SRR1181071
SRR1181300

那么接下来,就可以顺利使用prefetch进行下载

关于prefetch的快速下载

目前就我测试来讲,下面这个组合最好用,还是可以保持ascp的快速下载

prefetch : 2.9.6
Aspera Connect version 3.9.6

具体使用参考之前写的: 来吧,加速你的下载

还有一点内容

如果看到文章中作者给出的数据不是GEO链接,而是放上一个BioProject,那么这时要怎么去获取SRR ID呢?

image-20191128124841807

可以先进入这里:https://www.ncbi.nlm.nih.gov/Traces/study/

然后输入BioProject编号

image-20191128125153560

就能跳转到SRA ID了,接着下载Accession List就好啦

Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related