148-如何根据SRA数据库的SRS ID下载数据

Nov 28, 2019 2 min read cnposts

刘小泽写于19.11.28 平时我们下载数据一般都是直接找到SRR 列表，然后prefetch一下，方便快捷。但是当你只有SRS编号时呢？

首先来认识一下什么是SRS编号

SRA数据库的架构是这样的：

SRP(项目 Project)—>SRS(样本 Sample)—>SRX(数据产生 Experiment)—>SRR(数据本身)

首先要知道国际上的三大生物数据库：SRA, ENA or DDBJ，分别在美国、欧洲、日本
生物项目（BioProjects）是最顶层的，根据不同的数据库，它的前缀是PRJ 或者 SRP/ERP/DRP；其中包含一个或多个的生物样本（BioSamples），它的前缀是SAMN 或者SRS/ERS/DRS；一个BioSample虽然只是一个样本，但它可以使用多种实验处理，也就是Experiments，前缀是SRX/ERX/DRX；每个实验都会有一个数据产出Run，它的前缀是SRR/ERR/DRR

因此，一个SRS或许会包含多个实验产生的多个数据，也就可能对应多个SRR号

其实我们最感兴趣的也就是Runs的最终数据，它包含了reads的信息。而prefetch是针对SRR或ERR这样的数据本身的，并不能直接去下载SRS，需要先利用SRS ID得到SRR ID

怎么将SRS转成SRR

来自：https://www.biostars.org/p/347050/

比如想要下载：

可以直接用SRS551840

esearch -db sra -query SRS551840 | efetch --format runinfo | cut -d ',' -f 1 | grep SRR

然后你就会看到：

SRR1159129
SRR1159377
SRR1181071
SRR1181300

那么接下来，就可以顺利使用prefetch进行下载

关于prefetch的快速下载

目前就我测试来讲，下面这个组合最好用，还是可以保持ascp的快速下载

prefetch : 2.9.6
Aspera Connect version 3.9.6

具体使用参考之前写的：来吧，加速你的下载

还有一点内容

如果看到文章中作者给出的数据不是GEO链接，而是放上一个BioProject，那么这时要怎么去获取SRR ID呢？

可以先进入这里：https://www.ncbi.nlm.nih.gov/Traces/study/

然后输入BioProject编号

就能跳转到SRA ID了，接着下载Accession List就好啦

sra

148-如何根据SRA数据库的SRS ID下载数据

首先来认识一下什么是SRS编号

怎么将SRS转成SRR

关于prefetch的快速下载

还有一点内容

Yunze Liu

Bioinformatics Sharer

Related