生信格式之vcf格式

您所在的位置:网站首页 vcf文件是干嘛的 生信格式之vcf格式

生信格式之vcf格式

2023-05-11 15:35| 来源: 网络整理| 查看: 265

VCF format 一、VCF格式背景 1、VCF的由来 VCF(Variant Call Format)格式是记录测序结果里相对于参考序列的序列变异情况; 一般用比对结果产生的bam文件作为输入,利用GATK等variant calling软件,以及参考基因组等数据综合分析最终产生VCF结果 2、基因组变异类型

如下图一般可分为三大类变异

(1)SNP single nucleotide polymorphisms,单核苷酸多态性 指一种碱基变为另一种碱基 SNP&INDEL (2)INDEL 指insert 插入& deletion删除 两种变异类型 INDEL发生变异的序列长度一般小于50bp (3)SV Structural Variant 结构变异 这种涉及的类型比较多,变异程度较高,例如长片段序列的插入/删除,染色体倒位,拷贝数变异 三种变异类型 3、VCF记录变异的示例

如下图3条reads在同一参考序列附近的比对结果

image.png

相比ref序列(1)第一行记录:染色体20的第三位发生了SNP变异(C→G); (2)第二行记录:染色体20的第三位的C被删除(INDEL); (3)第三行记录:染色体20的第三、四位之间插入了一个核苷酸A(INDEL)

如下图,则为对应上图比对结果的VCF的简要记录格式 image.png

当然,VCF格式记录是非常全面的(程度可以类比sam格式)。

VCF format 二、VCF格式总结 VCF内容分为两大部分,第一部分是以##为标志的注释信息,第二部分则是对变异结果的全面记录。将直接从第二部分开始介绍,涉及到第一部分的注释会进行补充。 变异记录部分的第一行为以#为开头的表头部分,就是列名 image.png 第1列、CHROM 即在哪条染色体发生的该行记录的基因变异;

染色体名一般与注释部分的config条目结果一致,其中常见的ID与length两个flag分别指代染色体名与长度。

VCF,config 第2列、POS 指在染色体序列的什么位置发生了该变异; 具体则是表示第4列 REF列记录的第一个碱基的位置,可参考上面那个小例子。 VCF的变异记录就是分别按第一、二列进行排序; 第3列、ID 这一列表示在该染色体的该位置,发生该种变异是否在已有的变异数据库(在variant calling时提供)中有记录。 若有,则该列的值就是对应的变异ID;若没有(novel variant,觉得是大部分情况),则就用点号.代替 前5列 第4列、REF 表示在参考序列的碱基,即variant calling的标准; 对于SNP,很容易理解,就是变化的那个碱基(核苷酸); 对于INDEL,REF的第一个碱基往往不是发生变异的那个碱基,可参考下图理解 在注释部分的##reference条目说明了参考序列来源 image.png 第5列、ALT alternate base(s),说明相较于ref,具体发生了什么改变 对于同一染色体的同一位置可能发生多种变异(尤其是对于多个样本的结果)时,用逗号,分隔;具体可参考上面两张图。 对于SNP与INDEL的变异记录(较短序列)还比较容易理解,但是对于Structural Variant的结构变异(一般涉及较长序列)记录比较特殊,如下图所示(example:第二行变异记录表示An imprecise deletion of approximately 205 bp.) image.png (1)首先,ALT列用注释信息的Flag标签说明SV类型 SV 注释信息 SV types (2)然后在INFO列(第8列)补充SV变异的具体信息 SVTYPE即SV类型;END表示SV的变异结束位置;SVLEN表示SV变异的序列长度;由于变异序列信息较长,起始位置估计可能不准确,CIPOS与CIEND分别表示起始位置的置信区间。 SV 注释信息 第6列、Quality 表示对该行variant calling结果为wrong的可能性(错误率)大小; 值类似fastq的比对质量分数经过-log10转换;即该列的值越大,表示这一行变异记录越可信。 image.png 第7列、FILTER 这一列是基于第六列错误率以及其它角度对变异结果的可靠性评价; 若为PASS则表明符合一定过滤条件的质量合格的变异;若为.或者一些flag值则表明未通过筛选。常见的flag注释有q10、s50等。 image.png

If filters have not been applied, then this field should be set to the missing value.即全为点.

第8列、INFO

补充additional information

image.png

flag值的含义可在注释信息里找到

image.png 常见的有以下四个 AC:allele count in genotypes,表示在变异的genotypes中,涉及到几个等位基因(对于人等二倍体生物,一般只有两个等位基因); AN: total number of alleles in called genotypes(二倍体AN=2); AF: allele frequency for each ALT allele。简单理解就是AC/AN; DP:combined depth across samples;即所有样本里发生该变异的read数目。

对于第5列ALT列有2种的,则AC、AF值也分别有两种。其它INFO的flag就不一一介绍了,其中FS、ReadPosRandSum、MQRankSum等是重要的过滤vcf的标准,之后可重点关注下。

第9+列、FORMAT If genotype information is present, then the same types of data must be present for all samples

即记录了每个样本的变异genotype信息

image.png 首先是FORMAT列写出了以冒号分隔的genotype相关flag值,具体含义可参看注释部分 image.png 如上两图,常见的有 (1)GT:即表示genotype,就是该样本等位基因发生变异的情况,有如下几种取值(是我个人的理解,如有错误敬请指出) 0|0可以理解为该sample在位点的reads均与ref一致; 0|1或者1|0表示该sample在位点的一部分reads为REF类型,一部分为ALT类型; 1|1表示sample在该位点的所有reads均为ALT类型; 1|2则表示sample在该位点的一部分reads为第一种ALT类型;另一部分reads1位第二种类型。

The allele values are 0 for the reference allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and so on. 对于|与\的区别, 官方介绍前者表示genotype phased,后者表示genotype unphased。目前我也还没完全理解,参考https://blog.csdn.net/samhuairen/article/details/70243930,https://www.biostars.org/p/5298/

image.png

(2)AD:allele depths,表示sample中该位点里不同allele的覆盖度,一般有两个,逗号分隔,分别表示REF(0)、ALT(1)的覆盖度。如果ALT有两种可能,则就有三个值。 (3)DP:表示sample中该位点的总覆盖度,一般为AD所有值的和。 (4)GQ:Genotype的质量值,类似第6列的含义,不过这里是针对每个样本的计算。 (5)PL:genotype likelihoods,指定的三种基因型(0/0,0/1,1/1)的质量值(provieds the likelihoods of the given genotypes);这三种基因型的原始概率总和为1,再经过-log10转换。值得注意就是该值越大,表明为该种基因型的可能性越小。所以最有可能的genotype的值为0(参考下图)。

image.png

参考文档链接 1、基因组变异检测概述http://www.360doc.com/content/18/1213/11/52645714_801492183.shtml 2、The Variant Call Format (VCF) Version 4.2 Specification https://github.com/samtools/hts-specs 3、VCF格式的学习及对VCF文件的统计https://www.jianshu.com/p/38f734ae47f5 PS:部分图片来自网上,侵删~



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3