最新 (2021版

您所在的位置:网站首页 转录组测序需要多长时间 最新 (2021版

最新 (2021版

2024-07-05 11:16| 来源: 网络整理| 查看: 265

本篇推文来自于公众号的读者投稿作者:LEIF排版:小明背景

师妹过来说:“转录组的文章投出去了,但是期刊编辑部发邮件索要登录号。怎么把自己的转录组数据提交到NCBI啊?” 还好上个月刚刚新提交了一批数据,“教程给你,自己操作吧”

由于NCBI页面的改版,网上的大量教程已经不够准确,即使是2020年的教程,很多内容和页面都已经改变。本文将一步一步详细介绍在windows系统下高速上传数G体量的数据到NCBI的流程。(2021年2月版)。

准备注册账号

在NCBI注册个人的账号,并登陆。注册时候,最好是有一个教育网的邮箱

提交入口

打开NCBI主页https://www.ncbi.nlm.nih.gov/,并点击submit。

image.png

页面打开后,向下拉找到SRA,再点击submit。

image.png

进入my submissions页面,底部列表中可以看到过往提交的内容以及当前处理状态,没完成的任务也在里面。点击new submit。

image.png

新SubmissionSubmitter

如果第一次提交数据,系统先提醒认证个人信息,其中邮箱需要两个,在过去要求有一个必须是教育网edu的邮箱,现在似乎没有这个要求了。如果该账号以前提交过数据,那么系统会确认提交者个人信息是否正确并分配任务编号。检查无误后,继续continue。

image.png

image.png

General info

为了节省信息填报时间,项目和样品信息这里可以选NO,这些信息系统可以自动生成。数据release date按个人需求大概填写,该日期在数据提交完后还可以修改。继续continue。

image.png

Project info

带*的Project title 和description 简单填写。Relevance根据自身研究内容选,我的数据是农业相关。其他内容暂不管。继续continue。

image.png

Biosample type

这里的样品类型关系到后面需要下载和填写的信息,要看清楚。我的是植物样本,直接选了plant,继续continue

image.png

Biosample attributes

需要填写的信息较多,最好是本地做好表格再上传。先download 模版,按要求填好后再上传。注意:organism的拉丁名一定要写对,否则可能需要至少2天才能改过来(据说需要NCBI人工修改,本人暂未遇到过)。如果不确定名称,可以去NCBI中搜索,确保准确。注意:每个样品不是依据样品名称的差异来区分的,而是利用多个属性组合把每个样品区分开。所以不能仅仅是样品名称不同,其他属性都相同,应该能填的属性多填几个,保证样品之间总有某个或多个属性不同,这样就能区分样品。具体填写可参考我的表格。如果上传不成功,系统会给错误提示。报错后,删除旧表,修改信息,重新传(据个人经验,网络正常情况下,表格上传后,如果系统很久没有进入下一个页面,出现类似于卡住的现象,很可能就是填写的信息不符合要求)。上传完就continue。

image.png

image.png

SRA metadata

先下载模版,填好后上传。表格项目比较多,先看sheet1里的说明,然后再填SRA_data表中的信息。样品名称要和上一步表格中一致。可参考我的表格,我的是ILLUMINA平台双端测序的转录组数据,每个样品有两个压缩数据包,分别是1和2,填在filename和filename1栏中。

image.png

image.png

File

对于数以G体量的数据,最好选用Aspera高速上传的方法。注意Aspera command line upload instructions中包含的上传命令(红框中命令上传时候需要用到)。点击key file,下载得到aspera.openssh(上传需要用到)。接下来就是上传数据,数据上传完后,点击Select preload folder,选择你的数据文件夹。才能continue。

image.png

数据上传操作下载aspera

在windows上安装IBM Aspera Connect软件,注意名称中包含connect,不要下载错。自行搜索,或去下载地址https://www.ibm.com/products/aspera/downloads。

Windows DOS命令行

点击windows开始处,输入cmd,启动DOS。然后利用cd命令切换到aspera的可执行文件所在的目录。

image.png

image.png

执行上传命令:ascp -i 已下载的aspera.openssh的目录 -QT -l100m -k1 -d 拟上传数据所在的文件夹目录 [email protected]:uploads/自己命令的内容/data(自己新建文件夹名字,上传完后要选择这个文件夹)/

image.png

所有数据上传完后,点击NCBI 网页中的Select preload folder,选择自己新建的文件夹名字。然后continue。

image.png

Review & submit

最后整体检查一下所有表格和数据内容,没问题就submit。整个提交完毕,等待NCBI系统处理。可以在my submissions中查看处理进度。系统处理完后可以查看accession。

image.png

管理提交的数据

点击manage data可以获取reviewer link,修改数据release date,编辑其他的信息等。

image.png

经验和建议:1、最好使用网线连接电脑,wifi可能不稳定,上传过程中会失速,出现stalled中断。如果上传中断了,可以重新执行上传命令,已经上传的文件会自动跳过,不会重复上传。上传命令中的100m 表示上传最大速度,如果你的网络不是太好,可以设置低一些,否则带宽相差太大,可能也会中断。 2、上传速度跟网络有关,我个人有40G+ 数据,上传从早8点多开始,到下午2点多完成,使用家里的移动宽带网络(网络不好,经常断)。网络好的话应该更快。 3、数据上传后约10min 就获得了biosample 和bioproject号 4、SRA数据大概上传后半小时处理完,数据传完3个多小时后再登陆时,已经生成了sra和srr 登录号。 5、上传时,在dos中执行的命令行,要确保aspera.openssh和原始数据所在的文件夹名称中不能含有空格,如果有空格,命令执行后会报错。 6、上传命令行最后,要含有自己新建的文件夹,这样才可以在数据上传完后选择数据所在文件夹,否则无法找到上传的文件。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3