所有的分析都需要对snp进行LD过滤
常见的群体结构的分析方法有admixture分析、系统发生数分析以及主成分分析等。
1、admixture分析
###过滤数据
常用plink软件过滤,在此就不做介绍了,直接开始后续操作。
###dmixture进行群体遗传结构分析(群体数自己决定)
for K in 3 4 5 6 7; do /home/software/admixture_linux-1.3.0/admixture --cv ld.QC.75_noinclude0-502502-geno02-maf03.bed $K | tee log${K}.out; done
###提取CV值:CV error最小的为最佳K值
grep -h CV log*.out
分析结束后生成了自己设定k值的Q文件,用于在R中绘图
1)R语言绘图
admixture的可视化分为两种
###最佳K值的可视化
ta1 = read.table("ld.QC.75_noinclude0-502502-geno02-maf03.ped.map.3.4.Q") ##用的是最佳K值的那个Q文件
head(ta1)
barplot(t(as.matrix(ta1)),col = rainbow(3),
xlab = "Individual",
ylab = "Ancestry",
border = NA)
####全部K值的可视化(较复杂)
利用表格根据fam文件(三列 1.地区Asia 2.ID名称,与fam文件的一致 3.样本品种)作三列的order.txt并用制表符分隔形式保存
(###可将order.txt文件的第一列地区Asia改成真正的个体名称,这样图中就会显示每个个体名称
###可将order.txt文件中的顺序进行调整则图中的顺序即为order.txt文件的个体顺序)
Session中上传工作目录,需建立一个文件夹(包括Q文件,fam、bed、bim文件,order.txt文件)
##安装软件
install packages(Rcolorbrewer)
##(导入含有Q order.txt bed bid fam的文件夹,修改以下程序中的文件名和K值)
sort.admixture |