基因组survey

您所在的位置:网站首页 基因组gc 基因组survey

基因组survey

2023-09-09 00:09| 来源: 网络整理| 查看: 265

基因组survey

在组装基因组之前一定要先对要组装的物种有一个大致的了解,判断其复杂程度, 标准如下

基因组大小:基因组越大,测序花的钱越多 简单基因组: 杂合度低于0.5%, GC含量在35%~65%, 重复序列低于50% 二倍体普通基因组: 杂合度在0.5%~1.2%中间,重复序列低于50%。或杂合度低于0.5%,重复序列低于65% 高复杂基因组: 杂合度>1.2% 或 重复率大于65% k-mers估计法

最简单的策略就是基于k-mer对基因组做一个简单的了解, 使用jellyfish统计k-mers,然后作图

jellyfish count -m 21 -s 20G -t 20 -o 21mer_out -C contig.fa 杂合度估计

将原来的序列回贴到contig上,并用samtools+bcftools进行snp calling.统计变异的碱基占总体的比例。

mkdir -p index bwa index contig.fa -p index/contig bwa mem -v 2 -t 10 index/contig read_1.fq read_2.fq | samtools sort -n > align.bam samtools mpileup -f contig align.bam | bcftools call -mv -Oz -o variants.gz

一方面由于SOAPdenovo组装过程中会出错, 另一方面samtools在变异检测上也存在很高的假阳性, 所以总得先按照深度和质量过滤一批假阳性。

bcftools view -i ' DP > 30 && MQ > 30' -H variants.vcf.gz | wc -l # 325219, 无过滤是445113

变异数目占基因组大小的比例就是杂合度。我的contig大概是200M,找到0.3M左右的变异,也就是0.0015,即0.15%.

重复序列估计

基于同源注释,用RepeatMasker寻找重复序列. 这里要注意分析的fasta的ID不能过长,也就是最好是>scaffold_1这种形式,不然会报错。

~/opt/biosoft/RepeatMsker/RepeatMasker -e ncbi -species arabidopsis -pa 10 -gff -dir ./ contig.fa # -e ncbi # -species 选择物种 用~/opt/biosoft/RepeatMasker/util/queryRepeatDatabase.pl -tree 了解 # -pa 并行计算 # -gff 输出gff注释 # -dir 输出路径

输出结果中主要关注如下三个

output.fa.masked, 将重复序列用N代替 output.fa.out.gff, 以gff2形式存放重复序列出现的位置 output.fa.tbl, 该文件记录着分类信息 ================================================== file name: anno.fasta sequences: 62027 total length: 273135210 bp (273135210 bp excl N/X-runs) GC level: 36.80 % bases masked: 79642191 bp ( 29.16 %) ==================================================

也就是说我们的物种有30%的重复序列,作为参考,拟南芥125Mb 14%重复序列, 水稻389M,36%重复

附录:软件安装

安装RepeatMasker

cd ~/src wget http://tandem.bu.edu/trf/downloadstrf409.linux64 mv trf409.linux64 ~/opt/bin/trf chmod a+x ~/opt/bin/trf # RMBlast cd ~/src wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.6.0/ncbi-blast-2.6.0+-src.tar.gz wget http://www.repeatmasker.org/isb-2.6.0+-changes-vers2.patch.gz tar xf ncbi-blast-2.6.0+-src gunzip isb-2.6.0+-changes-vers2.patch.gz cd ncbi-blast-2.6.0+-src patch -p1 < ../isb-2.6.0+-changes-vers2.patch cd c++ ./configure --with-mt --prefix=~/opt/biosoft/rmblast --without-debug && make && make install # RepeatMasker cd ~/src wget http://repeatmasker.org/RepeatMasker-open-4-0-7.tar.gz tar xf RepeatMasker-open-4-0-7.tar.gz mv RepeatMasker ~/opt/biosoft/ cd ~/opt/biosoft/RepeatMasker ## 解压repbase数据到Libraries下 ## 配置RepatMasker perl ./configure


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3