212-GEO数据上传过程中一个不能忽略的细节

刘小泽写于2020.10.28 最近我在将测序数据上传到GEO时,碰到了一个问题,认为有必要提醒大家一下,省的耽误后面的时间

前言

一般来说,GEO的上传方法可以参考之前我写的: 会了GEO数据下载,来看看怎么上传吧

把所有数据存放好,并且给到他们一个md5文件即可(用于校验文件是否上传完整)。正常情况下,5个工作日就会得到GEO的通知。也的确是,但没想到是通知数据有误:

image-20201028094558994

很奇怪,但我更想知道的是,GEO是怎么判断我的数据有问题的

处理的过程

接到这个邮件后,我第一反应是我是不是上传途中网断了?由于数据不完整导致md5校验失败。但按说数据不完整一般会在fileZilla中看到失败项,而我并没看到。

于是第一次我只是重新上传了这三个数据,并且保证完整地上传了

后来再次收到邮件:

image-20201028095724343

说是:文件重复上传(意味着我第一次没有上传失败),然后显示问题是三个文件的不同行出现了长度不等的序列。后来经过验证发现,数据确实有问题,经过重新处理、上传、校验,才被接受

一个小建议

在上传前,除了常规的md5校验以外,最好先自己检查一下数据的完整性,以免后续耽误时间。那么如何检查数据完整性呢?推荐一个小工具,可以快速判断

https://github.com/nunofonseca/fastq_utils

# 安装
conda install -c bioconda fastq_utils
# 使用很简单:单端
fastq_info file_1.fastq.gz
# 双端
 fastq_info file_1.fastq.gz file_2.fastq.gz    

image-20201028103911850

当全部结果为ok时,再通知GEO会更保险

Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related