必收藏！超详细的小鼠全基因组测序数据分析流程！

您所在的位置：网站首页 › 小鼠基因总数是多少 › 必收藏！超详细的小鼠全基因组测序数据分析流程！

必收藏！超详细的小鼠全基因组测序数据分析流程！

2024-07-10 05:25| 来源: 网络整理| 查看: 265

嗨！你好，我是超速成长的子鹿，致力于构建一个欢乐好学有深度且能分享运营收益的生信社群！

在INFJ和ENFP中反复横跳，不给自己设限的六边形梦想实干家。

更多信息请到文章末尾查看！

这是我的第36篇文章。

以下是正文：

不知道为什么，网上很少有小鼠全基因组测序数据分析流程，可能是因为小鼠的基因组资源比较少吧。

这里我汇总了目前经常用到的小鼠参考数据库资源，辅助进行变异检测。

同时给了一个可行的小鼠全基因组分析流程供大家参考。

1. 下载小鼠参考数据集首先下载小鼠的 GRCm38参考基因组

网页链接见UCSC：https://hgdownload.soe.ucsc.edu/downloads.html#mouse

wget --timestamping 'ftp://hgdownload.cse.ucsc.edu/goldenPath/mm10/chromosomes/*'# 可以解压合并到一起gunzip .fa.gzcat *fa > GRCm38.fa# GRCm39参考基因组wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/635/GCA_000001635.9_GRCm39 下载的小鼠参考基因组在用于比对前，需要先进行index和dict处理： samtools=~/miniconda/envs/WGS/bin/samtoolsref=/home/GRCm38.fa$samtools faidx $refGATK=~/software/gatk-4.3.0.0/gatkJava=/usr/bin/javaGRCm38_path=/home/GRCm38${GATK} CreateSequenceDictionary -R ${GRCm38_path}/GRCm38.fa.gz -O GRCm38.fa.dict 下载dbSNP数据库的 GRCm38 VCF文件（这个文件是按染色体分开的） wget --recursive --no-parent --no-directories \--accept vcf*vcf.gz \ftp://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/ alt

后面又找到合并好的文件，包括SNP和Indel：

# SNP# NCIB的资源wget ftp://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/00-All.vcf.gz wget ftp://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/00-All.vcf.gz.tbi

其实Sanger Mouse Genetics Programme (Sanger MGP)和illumina也提供了很多资源

# Sanger Mouse Genetics Programme (Sanger MGP)的资源wget ftp://ftp-mouse.sanger.ac.uk/REL-1505-SNPs_Indels/mgp.v5.merged.snps_all.dbSNP142.vcf.gz# Indelwget ftp://ftp-mouse.sanger.ac.uk/REL-1505-SNPs_Indels/mgp.v5.merged.indels.dbSNP142.normed.vcf.gz \-O mgp.v5.indels.vcf.gz# illumina也提供了很多资源http://igenomes.illumina.com.s3-website-us-east-1.amazonaws.com/Mus_musculus/UCSC/mm10/Mus_musculus_UCSC_mm10.tar.gz

后面发现上面的参考文件是全部的位点，需要进一步过滤出PASS的位点

# take header firstzcat mgp.v5.indels.vcf.gz | head -1000 | grep "^#" | cut -f 1-8 \> mgp.v5.indels.pass.chr.vcf# keep only passing and append zcat mgp.v5.indels.vcf.gz | grep -v "^#" | cut -f 1-8 \| grep -w "PASS" >> mgp.v5.indels.pass.chr.vcf# 排序gatk SortVcf -SD GRCm38_68.dict -I mgp.v5.indels.pass.chr.vcf -O mgp.v5.indels.pass.chr.sort.vcf# rm .idx# rm mgp.v5.indels.pass.chr.sort.vcf.idx 给染色体数字前面加上"chr"，这步是保证跟参考基因组的染色体编号一样

回去看了下之前比对用的参考基因组，确实是带chr的！

# 修改vcf文件，加上chrfor vcf in $(ls -1 *.vcf.gz) ; do vcf_new=${vcf/.vcf.gz/.vcf} echo $vcf zcat $vcf | sed 's/^$[0-9XY]$/chr\1/' > $vcf_new rm -fv $vcfdone# 修改头文件中的染色体编号sed -i 's/##contig=

【本文地址】

必收藏！超详细的小鼠全基因组测序数据分析流程！

必收藏！超详细的小鼠全基因组测序数据分析流程！

今日新闻

推荐新闻