通过bed文件获取fasta序列 |
您所在的位置:网站首页 › bed是什么文件 › 通过bed文件获取fasta序列 |
一、BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。 必须包含的3列: 1.chrom, 染色体名字(e.g. chr3, chrY) 2.chromStart, 目标区段在染色体起始位置,染色体第一个碱基的位置是0 3.chromEnd, 目标区段在染色体结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的区段是0-99 9个可选列 4.name、5.score、6.strand、7.thickStart、8.thickEnd、9.itemRGB、10.blockCount、11.blockSize、12.blockStarts 二、基因组文件下载和seqFasta.py相关依赖包下载 1.基因组文件下载,如人hg38 $ wget 2.seqFasta.py依赖包下载 $ pip install numpy pyfasta 三、运行脚本seqFasta.py得到结果 1.利用geneInfo.py得到bed文件 $ python geneInfo.py -i brca1 -d hg38 -o brca1.bed 2.运行seqFasta.py得到fasta序列 $ python seqFasta.py -g $HG38/hg38.fa -b brca1.bed 【参考列表】 UCSC BED format 通过bed文件获取fasta序列 原文:https://www.cnblogs.com/yahengwang/p/9332487.html |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |