关于参考基因组fasta中的chr*

您所在的位置:网站首页 染色体位置chr12 关于参考基因组fasta中的chr*

关于参考基因组fasta中的chr*

2023-08-25 14:11| 来源: 网络整理| 查看: 265

ref一个写的很好的帖子: 思考-在比对时,关于是否将chr*_random和chrUn_*序列放在参考基因组中的思考 - Lablueee's website

如果参考基因组序列中不包含chr*_random 和 chrUn_*序列,那么原来属于chr*_random 和 chrUn_*的read则有可能比对到(不是一定)chr1-22,chrX,chrY上的相似区域(这些区域与chr*_random 和 chrUn_*中的部分区域相似),造成假阳性比对,后续这些reads提供的信息都是不可靠的。

如果参考基因组序列中包含chr*_random 和 chrUn_*序列,那么来自这些区域的reads则会正确的比对到这个地方,没有假阳性比对,只不过后续分析不需要考虑chr*_random 和 chrUn_*即可。

结论:

建议保留这些chr*_random 和 chrUn_*序列!

GRCh37

Genome Reference Consortium(基因组参照序列联盟),由英国Wellcome Trust Sanger研究中心(the Wellcome Trust Sanger Center)、华盛顿大学基因组中心(The Washington University Genome Center)、欧洲生物信息研究所(the European Bioinformatics Institute)和美国国家生物技术信息中心(NCBI)联合组成。

GRCH37版本发布之后,也会有小的更新,比如GRCh37.p2,大的更新比如由GRCh37升级到GRCh38,填补gap,修改部分序列,其目的是提供一个完整的基因组序列assemble。GRCh38已经在2013年发布,多数基因组数据库正在兼容或者更新到该版本。

该版本包含人类chr1到chr22,chrX,chrY,MT染色体以及

“unlocalized sequences”:知道来自哪条染色体但不知道具体位置的序列

“unplaced sequences”:知道来自人类基因组序列,但不知道与染色体的关系

“alternate loci”:来自基因组特定区域,代表该区域序列的多样性

下载地址: ftp://ftp.ncbi.nih.gov/genomes/Homo_sapiens

hg19

UCSC提供,容易下载,因为UCSC方便下载各种坐标文件(bed,gtf等),该版本可以与这些坐标对应。与GRCh38对应的是hg38版本。

该版本序列包括chr1到chr22,chrX,chrY序列与GRCh37完全一致(完全一致,完全一致),线粒体序列稍微不一样,以及

“chr*_random sequences” 知道来自哪条染色体但不知道具体位置的序列

“chrUn_* sequences” 知道来自人类基因组序列,但不知道与染色体的关系

UCSC与GRCh不同的地方有:

在重复区域repeat region有小写来表示,这点和GRCh不同

此外染色体有chr前缀,而GRCh没有chr前缀。

线粒体序列版本不一样

下载地址: ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes

参考: hg19、GRCH37、b37、hs37d5介绍和区别 - Lablueee's website

ref另一篇分析:关于人参考基因组fasta文件的组成部分说明 - 简书



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3