VCF变异文件读取和详细

您所在的位置:网站首页 gz文件怎么查看 VCF变异文件读取和详细

VCF变异文件读取和详细

2024-01-14 01:02| 来源: 网络整理| 查看: 265

VCF各列意义说明

各列之间用tab空白隔开;前面9列为固定列,第10列开始为样品信息列,可以无限多个;

#CHROM

POS

ID

REF

ALT

QUAL

FILTER

INFO

FORMAT

后面的列都为样品基因型信息列

具体说明如下

1.CHROM 记录染色体编号

2.POS 记录染色体位置信息

3.ID SNP/INDEL的dbSNP编号通常以rs开头,一般只有人类基因组才有dbSNP编号。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用”.”表示其为一个novel variant。

4.REF 参考基因组碱基类型,必须是A,C,G,T,N且都大写。

5.ALT Variant变异碱基类型,必须是A,C,G,T,N,. 且都大写,多个用逗号分割。"."表示这个地方没有reads覆盖为缺失。

6.QUAL 变异信息的检测质量值,越高越可靠。

7.FILTER 标记过滤结果的列,通常我们把VCF文件中的变异信息进行质控,过滤掉低质量的变异位点,如果该位点通过过滤标准那么我们可以在该列标记为"PASS",说明该列质量值高。标记完之后我们就可以用其他工具,把标记为"PASS"的列给筛选出来,这样方便后续分析。如果没有应用缺失值"."代替。

8.INFO 为附加信息列,一般以

=;形式添加额外的注释信息列,常见的如DP=18 表示该位点测序深度为18X;AF=0.1表示等位基因频率为0.1;

9.FORMAT 为后面10列信息的说明列,通常以":"隔开各个缩写词。不同的变异检测软件可能会有差异,以下用GATK的检测结果为例:

10.10列(包含)以后为样品基因型列,各信息以":"分隔与FORMAT列一一对应;

GT 表示genotype,通常用”/” or “|”分隔两个数字,“|”phase过也就是杂合的两个等位基因知道哪个等位基因来自哪条染色体;0代表参考基因组的碱基类型;1代表ALT碱基类型的第一个碱基(多个碱基用","分隔),2代表ALT第二个碱基,以此类推;比如

REF列为:A, ALT列为G,T;那么0/1基因型为AG 杂合,1/1基因型为GG纯合SNP;1/2代表GT基因型;./.表示缺失;

AD 两种碱基各自支持的碱基数量,用","分开两个数据,分别代表两个等位基因的深度;

DP 该样品该变异位点的测序深度总和,也就是AD两个数字的和;

PL 归一化后各基因型的可能性,通常有三个数字用’,'隔开,顺序对应AA,AB,BB基因型,A代表REF,B代表ALT(也就是0/0, 0/1, and 1/1),由于是归一化之后,数值越小代表基因型越可靠;那么最小的数字对应的基因型判读为该样品的最可能的基因型;

GQ 针对PL的判读得到的基因型的质量值,此值越大基因型质量值越好。由于PL归一化之后通常最小的数字为0;那么基因型的质量值取PL中第二小的数字,如果第二小的数字大于99,我们只取99,因为在GATK中再大的值是没有意义的,第二小的数大于99的话一般说明基因型的判读是很可靠的,只有当第二小的数小于99的时候,才有必要怀疑基因型的可靠性;



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3