GWAS

您所在的位置:网站首页 苹果怎么打开vcf文件 GWAS

GWAS

#GWAS | 来源: 网络整理| 查看: 265

前期准备 给标记加上ID

SNP data通常都是以VCF格式文件呈现,拿到VCF文件的第一件事情就是添加各个SNP位点的ID。 先看一下最开始生成的VCF文件:

image

可以看到,ID列都是".",需要我们自己加上去。我用的是某不知名大神写好的perl脚本,可以去我的github上下载,用法:

perl path2file/VCF_add_id.pl YourDataName.vcf YourDataName-id.vcf`

当然也可以用excel手工添加。添加后的文件如下图所示(格式:CHROMID__POS):

image SNP位点过滤(Missing rate and maf filtering)

SNP位点过滤前需要问自己一个问题,我的数据需要过滤吗?

一般要看后期是否做关联分析(GWAS);如果只是单纯研究群体结构建议不过滤,因为过滤掉低频位点可能会改变某些样本之间的关系;如果需要和表型联系其来做关联分析,那么建议过滤,因为在后期分析中低频位点是不在考虑范围内的,需要保持前后一致。

如果过滤,此处用到强大的plink软件,用法:

plink --vcf YourDataName-id.vcf --maf 0.05 --geno 0.2 --recode vcf-iid -out YourDataName-id-maf0.05 --allow-extra-chr

参数解释:--maf 0.05:过滤掉次等位基因频率低于0.05的位点;--geno 0.2:过滤掉有20%的样品缺失的SNP位点;--allow-extra-chr:我的参考数据是Contig级别的,个数比常见分析所用的染色体多太多,所以需要加上此参数。

格式转换

将vcf文件转换为bed格式文件。 这里注意一点!!!!:应该是软件的问题,需要把染色体/contig名称变成连续的数字(1 to n),不然会报错无法算出结果!(坑)

plink --vcf YourDataName-id-maf0.05.vcf --make-bed --out snp --chr-set 29 no-xy

参数解释:--chr-set 给出染色体/contig的数目;no-xy 没有xy染色体。

用gcta做PCA分析 gcta输出grm阵列(genetic relationship matrix) gcta64 --make-grm --out snp.gcta --bfile snp --autosome-num 29

参数解释:--autosome-num常染色体数目。

gcta计算PCA gcta64 --grm snp.gcta --pca 20 --out snp.gcta

参数解读:--pca 20 保留前20个PCA。

特征值结果储存在snp.gcta.eigenval中,特征向量储存在snp.gcta.eigenvec中。

结果处理

将特征值结果和特征向量结果用R处理为可读性结果。写好的R包我放在了Github中:PCA2normal_format.R,大家自行下载使用。

如果不想下载,直接复制如下代码:

eigvec


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3