7

您所在的位置:网站首页 dyd什么意思 7

7

2024-07-17 13:36| 来源: 网络整理| 查看: 265

1 GS中的一些基础知识

写下基础知识: (1)首先,现在实际基因组选择都是使用的SNP (2)位点可以使用0, 1, 2表示,主要等位基因为0, 次要等位基因为1 (3)表型一般都会做校正: Daughter Yield Deviations( DYD, 奶牛使用较多), Deregressed EBV(DRP ≈ EBV/REL)(PS:现在有一步法,直接使用原始表型)

2 GS分类

1 多步法(MS-GP) (1) 计算EBV(如national估计) (2) 取出高可靠性的公牛EBV, 进行计算出DYD或DRP (3) 建立估计SNP的effect的“方程” (4) 计算新个体的Direct Genomic Value (DGV) (5) 结合DGV和其他信息(DGV不包含)计算个体最终的GEBV 推荐需要去看, P.M. VanRaden 在2008发表于J. Dairy Sci. 的文章, "Efficient methods to compute geneomic predictions" 多步法因为多个step, 会可能造成更多的潜在误差 2 一步法 single-step methods(SS-GP)

3 多步法使用多种算法实现

“linear” 方法:三种 非线性(Bayesian)方法

3.1 Linear 法: 3种(VanRaden, 2008) (1) Multiple Random Regression => RR-BLUP

1.1 y = Xb + Zu + e 这里的y = DYD, X为固定效应的incidence 矩阵, b为固定效应;Z 是与SNP effect 对应的incident matrix, u指的是SNP effect(random effect), e为随机残差.

image.png

其中R是以 1/weights为对角的对角矩阵.

image.png

DGV 通过a = Zu计算得到 所以也可以将模型写成:y = Xb + Ia + e = Xb + I(Zu) + e, 这里的I 是连接y 与DGV, Z是连接y与u的,

步骤首先构建Z矩阵,其是incidence矩阵,连在观察值与SNP效应

Z = M - P 一般SNP的矩阵是由0,1,2,构建,但是M是表示为-1,0, 1(均减去1),为nxm(动物个体数xSNP位点数) ; P矩阵是先计算各SNP的allele频率f~i~,P矩阵中每个位点(列)表示2f~i~ - 1

MME方程为:

image.png

如果两边可以都除以σ2e的话,MME可以写出:

image.png 其中R = 1/weight的对角矩阵(但是大多数R=I, 即不加入权重) image.png

所以称为RR-BLUP(Random regression-BLUP) 如前面所讲DGV = a = Zu(所有SNP的总和)

预测年轻的动物

当有年轻的动物加入时,需要在M中加入新一行, 并扩增Z(原来的等位基因频率不变), 进行全部从新解出方程(只是对新加入的动物增加解,其他不变) PS:看起来非常简单,但是实际使用中,会更加复杂一些

(2) SI以Ga矩阵计算 DGV

在SI中, 预测DGV使用校正的表型, 使用了G取代A矩阵,但是为了区分,这里写为Ga Ga计算都多种算法:如 = ZZ'd-1 公式计算:

image.png 上式是基于SI推导,但其也等价于RR-BLUP image.png

Ga与A矩阵的比较(注意这里的“,”, 表示“.”):

A矩阵

image.png

Ga

image.png

Ga- A

image.png 一般情况,我们认为Ga能更好的反应个体之间的亲缘关系

加入年轻的动物

当有年轻的动物加入时,SI需要类似RR-BLUP的方法处理:

image.png (3) G-BLUP

如果固定效应和随机效应一起估计,将MME的A矩阵由Ga取代,则变为了G-BLUP y = Xb + Z a + e* Z指的是与遗传相关的incidence matrix,实际每个动物只有一个育种值,即Z=I, a为DGV,其他与RR-BLUPF相同。 在BLUP中, var(a)= a covariance structure X a variance component, 什么 a covariance structure呢:常规(系谱)BLUP为A矩阵,G-BLUP为Ga矩阵 其方程组为:

image.png 但有的时候, Ga不可逆, 就需要新组成G*= 0.99Ga + 0.01A

加入年轻的动物

需要从新计算一个Ga,基于新数据, 加入n列0到Z*矩阵中, 解出方程组即可。 另一种方法:

image.png

(4)从写RR-BLUP image.png

则每个位点的遗传方差是总方差除以位点数:

image.png

所以每个位点的遗传方差都是相等的

image.png 3.2 No-linear(Bayesian) methods

(1)Bayes-A 每个SNP的方差不同, t分布, 一般用Gauss-Seidel迭代得到解 (2)Bayes-B 假设π%的SNP没有遗传方差, 剩下1-π 的SNP,每个SNP的方差不同, 非零效应 SNP - t 分布

image.png

(3)Bayes-C = Non-linear Bayes A and B, 对π的SNP进行估计, 非零效应 SNP - 正态分别 VanRaden (2008)提出两种非线性方法,称为非线性A与B, 都是对SNP的效应进行校正,如果接近0就下降,如果远离0就上升。

image.png

还有其他Bayes alphabet, 如Cπ, R等

4 DGV VS GEBV

Direct Genomic Value(DGV)与Genomically Enhanced Breeding Values(GEBV)的不同含义: DGV,只是有自己的基因组信息得到 , 不包含: 它的女儿和亲本对它的影响。 GEBV = DGV与EBV的结合, 不是直接相加, 两者有重复的部分

GP最大的优点是提高的估计值的可靠性

这是因为可靠性是基于可靠地信息:父母,自己,后代, G矩阵能比系谱A能更好的反应实际亲缘系数(因为重组等原因,亲本不能完全将50%遗传物质传给后代)。 G考虑了Mendelian sampling.

可靠性比较 image.png 5 GP的算法迭代 第一代

上面将的RR-BLUP,G-BLUP等,一般都统称为第一代GP: works well: (1)只有参考群体数量大和可靠性高时(EBV可以反应表型) (2) 参考群与预测群具有较强的相关性(但不能近交)

image.png

问题,但是: (1)许多步骤评估,会增加潜在误差 (2)都为单性状模型 (3)有的性状参考群体小, 有的新性状没有参考群,开始将母牛包含进入 (4)有基因型与没有的基因组不能混合计算

所以很快更新为第二代GP: Single-Step Genomic Prediction(SS)

一起使用表型,系谱和基因组数据; 更有利于小群体:这就不需要高REL的EBV;很容易增加牛到参考群体; 但这些需要更好的算法

最重要矩阵的合成可能有不同的推导: 如:对于G矩阵的组合:

image.png

也可以使用适当的 SI 公式从基因分型动物中预测未基因分型(有具体的算法)

另一种加入了没有基因组的数据生成H矩阵, A为全部的系谱矩阵, Gc是基于基因组个体计算的矩阵, Ag是基于具体基因组个体的系谱矩阵

image.png 常称为ss-GBLUP. 其还有多种变型,并且对于Ag与Gc合并,还需要更复杂的处理,不是简单的相减。 image.png

现在也同时具有了SS-Bayes。这里不详细介绍了。

本次遗传算法中的最后一篇, 全部的几篇只是介绍了一些简单入门算法, 具体推算没有介绍,如果你感兴趣,需要多阅读一些当时开发这个算法的文献。 当然我后续还有一个更详细的需要写, 但最近需要使用机器学习的一些算法,所以要先对机器学习算法进行一个回顾,后面有时间再接着写方差-协方差组分求解的详细推导

实际在遗传数据分析中,最先估计各性状的方差-协方差组分, 再根据估计值计算遗传力、相关性等, 最终我们要以估计的方差-协方差组分求出各性状的育种值。

当然在多性状动物模型分析中,都需要先单个分析,以其结果作为多性状的初始值,加快收敛速度。

7 个人觉得模型难易程度为: sire model < MGS model < sir-MGS model < animal model < Repeatability model < MT animal model < random regression model

当然只有所有模型都自己使用代码,练习一下, 会有更大的收获。



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3