7

2024-07-17 13:36| 来源: 网络整理| 查看: 265

1 GS中的一些基础知识

写下基础知识：（1）首先，现在实际基因组选择都是使用的SNP （2）位点可以使用0, 1, 2表示，主要等位基因为0，次要等位基因为1 （3）表型一般都会做校正： Daughter Yield Deviations（ DYD，奶牛使用较多）， Deregressed EBV（DRP ≈ EBV/REL）(PS:现在有一步法，直接使用原始表型)

2 GS分类

1 多步法（MS-GP）（1）计算EBV（如national估计）（2）取出高可靠性的公牛EBV，进行计算出DYD或DRP （3）建立估计SNP的effect的“方程” (4) 计算新个体的Direct Genomic Value (DGV) (5) 结合DGV和其他信息（DGV不包含）计算个体最终的GEBV 推荐需要去看， P.M. VanRaden 在2008发表于J. Dairy Sci. 的文章， "Efficient methods to compute geneomic predictions" 多步法因为多个step，会可能造成更多的潜在误差 2 一步法 single-step methods(SS-GP)

3 多步法使用多种算法实现

“linear” 方法：三种非线性（Bayesian）方法

3.1 Linear 法： 3种(VanRaden， 2008) (1) Multiple Random Regression => RR-BLUP

1.1 y = Xb + Zu + e 这里的y = DYD, X为固定效应的incidence 矩阵， b为固定效应；Z 是与SNP effect 对应的incident matrix， u指的是SNP effect（random effect）， e为随机残差.

image.png

其中R是以 1/weights为对角的对角矩阵.

image.png

DGV 通过a = Zu计算得到所以也可以将模型写成：y = Xb + Ia + e = Xb + I(Zu) + e, 这里的I 是连接y 与DGV， Z是连接y与u的，

步骤首先构建Z矩阵，其是incidence矩阵，连在观察值与SNP效应

Z = M - P 一般SNP的矩阵是由0,1,2,构建，但是M是表示为-1，0， 1（均减去1），为nxm(动物个体数xSNP位点数) ； P矩阵是先计算各SNP的allele频率f~i~,P矩阵中每个位点（列）表示2f~i~ - 1

MME方程为：

image.png

如果两边可以都除以σ2e的话，MME可以写出：

image.png 其中R = 1/weight的对角矩阵（但是大多数R=I，即不加入权重） image.png

所以称为RR-BLUP（Random regression-BLUP）如前面所讲DGV = a = Zu(所有SNP的总和)

预测年轻的动物

当有年轻的动物加入时，需要在M中加入新一行，并扩增Z（原来的等位基因频率不变）, 进行全部从新解出方程（只是对新加入的动物增加解，其他不变） PS：看起来非常简单，但是实际使用中，会更加复杂一些

(2) SI以Ga矩阵计算 DGV

在SI中，预测DGV使用校正的表型，使用了G取代A矩阵,但是为了区分，这里写为Ga Ga计算都多种算法：如 = ZZ'd-1 公式计算:

image.png 上式是基于SI推导，但其也等价于RR-BLUP image.png

Ga与A矩阵的比较（注意这里的“,”, 表示“.”）：

A矩阵

image.png

Ga- A

image.png 一般情况，我们认为Ga能更好的反应个体之间的亲缘关系

加入年轻的动物

当有年轻的动物加入时，SI需要类似RR-BLUP的方法处理：

image.png (3) G-BLUP

如果固定效应和随机效应一起估计，将MME的A矩阵由Ga取代，则变为了G-BLUP y = Xb + Z a + e* Z指的是与遗传相关的incidence matrix,实际每个动物只有一个育种值，即Z=I， a为DGV，其他与RR-BLUPF相同。在BLUP中， var(a)= a covariance structure X a variance component, 什么 a covariance structure呢：常规（系谱）BLUP为A矩阵，G-BLUP为Ga矩阵其方程组为：

image.png 但有的时候， Ga不可逆，就需要新组成G*= 0.99Ga + 0.01A

加入年轻的动物

需要从新计算一个Ga，基于新数据，加入n列0到Z*矩阵中，解出方程组即可。另一种方法：

image.png

(4)从写RR-BLUP image.png

则每个位点的遗传方差是总方差除以位点数：

image.png

所以每个位点的遗传方差都是相等的

image.png 3.2 No-linear(Bayesian) methods

（1）Bayes-A 每个SNP的方差不同， t分布, 一般用Gauss-Seidel迭代得到解（2）Bayes-B 假设π%的SNP没有遗传方差，剩下1-π 的SNP，每个SNP的方差不同，非零效应 SNP - t 分布

image.png

（3）Bayes-C = Non-linear Bayes A and B, 对π的SNP进行估计，非零效应 SNP - 正态分别 VanRaden (2008)提出两种非线性方法，称为非线性A与B，都是对SNP的效应进行校正，如果接近0就下降，如果远离0就上升。

image.png

还有其他Bayes alphabet，如Cπ， R等

4 DGV VS GEBV

Direct Genomic Value（DGV）与Genomically Enhanced Breeding Values（GEBV）的不同含义： DGV，只是有自己的基因组信息得到 , 不包含：它的女儿和亲本对它的影响。 GEBV = DGV与EBV的结合，不是直接相加，两者有重复的部分

GP最大的优点是提高的估计值的可靠性

这是因为可靠性是基于可靠地信息：父母，自己，后代， G矩阵能比系谱A能更好的反应实际亲缘系数（因为重组等原因，亲本不能完全将50%遗传物质传给后代）。 G考虑了Mendelian sampling.

可靠性比较 image.png 5 GP的算法迭代第一代

上面将的RR-BLUP,G-BLUP等，一般都统称为第一代GP： works well：（1）只有参考群体数量大和可靠性高时（EBV可以反应表型）（2）参考群与预测群具有较强的相关性（但不能近交）

image.png

问题，但是：（1）许多步骤评估，会增加潜在误差（2）都为单性状模型（3）有的性状参考群体小，有的新性状没有参考群，开始将母牛包含进入（4）有基因型与没有的基因组不能混合计算

所以很快更新为第二代GP： Single-Step Genomic Prediction（SS）

一起使用表型，系谱和基因组数据; 更有利于小群体：这就不需要高REL的EBV；很容易增加牛到参考群体；但这些需要更好的算法

最重要矩阵的合成可能有不同的推导：如：对于G矩阵的组合：

image.png

也可以使用适当的 SI 公式从基因分型动物中预测未基因分型（有具体的算法）

另一种加入了没有基因组的数据生成H矩阵， A为全部的系谱矩阵， Gc是基于基因组个体计算的矩阵， Ag是基于具体基因组个体的系谱矩阵

image.png 常称为ss-GBLUP. 其还有多种变型，并且对于Ag与Gc合并，还需要更复杂的处理，不是简单的相减。 image.png

现在也同时具有了SS-Bayes。这里不详细介绍了。

本次遗传算法中的最后一篇，全部的几篇只是介绍了一些简单入门算法，具体推算没有介绍，如果你感兴趣，需要多阅读一些当时开发这个算法的文献。当然我后续还有一个更详细的需要写，但最近需要使用机器学习的一些算法，所以要先对机器学习算法进行一个回顾，后面有时间再接着写方差-协方差组分求解的详细推导

实际在遗传数据分析中，最先估计各性状的方差-协方差组分，再根据估计值计算遗传力、相关性等，最终我们要以估计的方差-协方差组分求出各性状的育种值。

当然在多性状动物模型分析中，都需要先单个分析，以其结果作为多性状的初始值，加快收敛速度。

7 个人觉得模型难易程度为： sire model < MGS model < sir-MGS model < animal model < Repeatability model < MT animal model < random regression model

当然只有所有模型都自己使用代码，练习一下，会有更大的收获。

【本文地址】

7

7

今日新闻

推荐新闻