从国家基因组科学数据中心(NGDC)下载原始测序数据

您所在的位置:网站首页 c与数据库连接的详细步骤 从国家基因组科学数据中心(NGDC)下载原始测序数据

从国家基因组科学数据中心(NGDC)下载原始测序数据

#从国家基因组科学数据中心(NGDC)下载原始测序数据| 来源: 网络整理| 查看: 265

最近在看拟南芥基因组组装相关的论文,想把论文中提到的原始测序数据下载下来,论文中数据获取的部分写道

The raw sequencing data for the PacBio HiFi reads, ONT long-reads, Illumina short reads, and Hi-C Illumina reads have been deposited in the Genome Sequence Archive [70] at the National Genomics Data Center, Beijing Institute of Genomics, Chinese Academy of Sciences / China National Center for Bioinformation (GSA: CRA004538), and are publicly accessible at https://ngdc.cncb.ac.cn/gsa.

打开这个链接 https://ngdc.cncb.ac.cn/gsa 直接搜索对应的GSA编号

image.png

就可以找到对应的原始数据的详细信息,然后对应的找到下载链接就可以直接去下载了,个人感觉这个比NCBI好用多了,这里下载数据还专门有一个对应的工具叫做 EdgeTurbo 自己试了一下也非常好用

官网上提供了一个详细的帮助文档,以下记录一下自己的安装和使用步骤

帮助文档的链接

https://ngdc.cncb.ac.cn/ettrans/files/edgeturbo%E5%AE%A2%E6%88%B7%E7%AB%AF%EF%BC%88linux%E7%89%88%EF%BC%89%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97.pdf

https://ngdc.cncb.ac.cn/ettrans/?filePath=/gsa/CRA004538 或者在这个链接直接点击右上角的链接就可以

下载软件 wget https://ngdc.cncb.ac.cn/ettrans/download/edgeturbo-client.linux.latest.cncb.tar.gz 解压缩 tar -zxvf edgeturbo-client.linux.latest.cncb.tar.gz

接下来帮助文档里还提到了添加到环境变量,这一步我没有做,就直接使用完整的路径调用吧

下载数据命令

~/edgeturbo-client/edgeturbo download /gsa/CRA007099/CRR511439/CRR511439_f1.fq.gz

不指定存储位置会在home目录下生成一个download文件夹存储下载的数据

如果要指定存储位置 在下载命令后用L链接路径

~/edgeturbo-client/edgeturbo download /gsa/CRA007099/CRR511439/CRR511439_f1.fq.gz L/home/myan/my_data

下载速度还是非常快的

运行命令后会一直显示下载状态 按ctrl+c是退出这个显示状态,但是下载还在继续,如果要查看下载状态的话用命令

~/edgeturbo-client/edgeturbo ps

如果要删除某个下载任务的话 ctrl+c是不起作用的,需要参考帮助文档里的操作

wget + ftp链接 我这边的速度是1M左右,如果用这个工具速度可以达到20M左右

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

image.png


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3