gffcompare用法

您所在的位置:网站首页 基因code gffcompare用法

gffcompare用法

2024-01-18 11:18| 来源: 网络整理| 查看: 265

gffcompare是一个比较不同gtf文件的软件,常用于de novo组装的转录本与已知转录本的比较。这里只介绍gffcompare的常用参数以及结果文件。

gffcompare [-r [-R]] [-T] [-V] [-s ] [-o ] [-p ] {-i | [ .. ]} -r 指定参考gtf文件 -o 指定输出文件的前缀,默认为gffcmp -i 如果有多个gtf文件需要与参考gtf比较,将多个gtf文件名写到一个txt文档中,用-i参数指定该文档

结果中包含6个文件:

文件名 文件内容 gffcmp.stats 数据总结和准确性评估(包括Base、Exon、Intron、Intron chain、Transcript和Locus共6个水平的敏感性Sensitivity和准确性Precision评估) gffcmp.annotated.gtf (gffcmp.combined.gtf) 如果只有1个新组装的gtf与参考gtf比较,则结果文件为gffcmp.annotated.gtf,包含新组装gtf文件里所有feature的注释结果;如果有多个新组装的gtf与参考gtf比较,结果文件为gffcmp.combined.gtf,将所有新组装gtf的注释结果合并到一起 gffcmp.tracking 该文件记录了所有样本中转录本的匹配情况,特别是对于多个新组装gtf的文件 gffcmp.loci NA gffcmp..refmap 对于每个新组装的gtf文件,都会产生一个refmap文件。内容为对于每个参考转录本,哪个query转录本完全或部分匹配到该转录本上,有4列,分别为:参考gtf中的基因名/基因ID;参考gtf中的转录本ID;匹配类型;详细匹配信息 gffcpm..tmap 对于每个新组装的gtf文件,都会产生一个tmap文件,该文件可用于后续过滤转录本。内容为对于每个新组装gtf中的转录本,哪条参考转录本与其匹配度最高,一般有12列:参考基因名/基因ID;参考转录本ID;匹配类型;新组装基因ID;新组装转录本ID;新组装转录本外显子数;FPKM;TPM;Coverage;Length;新组装gtf中该基因的主剪切本;新组装转录本与参考转录本匹配的长度。 gffcmp.stats

gffcompare常用于比较从头组装的转录本与已知转录本,从而评估从头组装pipeline的性能,包括敏感性Sensitivity和准确性Precision两方面,从6个feature水平进行评估(Base level 、Exon level 、Intron level 、Intron chain level 、Transcript level 、Locus level)

敏感性Sensitivity=TP/(TP+FN)

准确性Precision=TP/(TP+FP)

TP:true positives,真阳性,表示新组装的feature与参考的feature一致

FN:false negatives,假阴性,表示参考的feature未出现在新组装的feature中

FP:false positives,假阳性,表示新组装的feature在参考feature中未出现

FP+TP代表新组装feature的总数

gffcmp.tracking

该文件的前四列是固定的,从第五列开始为新组装的gtf文件中的转录本信息,如果只有一个新组装gtf文件,则tracking文件有5列,如果有2个新组装gtf文件,则tracking文件有6列。

列号 列名 举例 描述 1 Query transfrag id TCONS_00403479 query transfrag的内部ID 2 Query locus id XLOC_006534 该transfrag所在的super-locus的内部ID 3 Reference gene id TCEA3|rna-XM_006710864.2 匹配上的参考gtf中的转录本ID 4 Class code c 匹配类型 5 Transcript from gtf1 q1:STRG.377|STRG.377.2|10|0.304785|0.760185|2.205239|2767 gtf1中的转录本信息:基因ID|转录本ID|外显子数目|FPKM|TPM|cov|len 6 Transcript from gtf2 q2:STRG.382|STRG.382.3|10|0.650162|1.688384|3.312878|3016 gtf2中的转录本信息

注:这里的super-locus是指一个基因组中被预测的转录本和参考转录本聚集的地方。

class code:转录本匹配结果的分类 image-20221103214732798-16674832557411.png 从新组装的gtf文件中提取特定class code的转录本 #首先利用gffcpm..tmap中第3列的class code信息提取转录本 #例如要提取class code为i、x、u、o、e的转录本 #因为gtf中的转录本ID用双引号括住,因此这里输入转录本ID时也用双引号括住 awk '$3=="i" || $3=="x" || $3=="u" || $3=="o" || $3=="e" {print "\"" $5 "\""}' gffcmp.all.merged.gtf.tmap > filter.transcript.id.txt #然后根据保留的转录本ID从总的gtf中提取过滤后的gtf #因为gtf文件中无中文等特殊字符,不需要unicode编码,因此在grep之前加LC_ALL=C将编码环境指定为ASCII编码 #grep带有正则,fgrep没有,速度更快 LC_ALL=C fgrep -f filter.transcript.id.txt gffcmp.annotated.gtf > filter.gtf


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3