猪主要经济性状的基因组选择研究

您所在的位置：网站首页 › 基因组选择育种包括哪些主要步骤 › 猪主要经济性状的基因组选择研究

猪主要经济性状的基因组选择研究

2024-07-11 11:06| 来源: 网络整理| 查看: 265

动物育种是一种从遗传上不断改进动物群体重要性状来提高经济效益的技术和方法，其主要问题就是遗传优良个体选择的准确性[1]。数量遗传学(quantitative genetics)是研究群体数量性状的一门学科，其方法主要是将遗传学和统计学相结合[2]。遗传参数估计是数量遗传学中重要的内容之一，相当于方差或者协方差组分的估计，基本遗传参数遗传力等对指导动物育种有着重要的意义[3]，而估计遗传参数目前应用比较广泛的是极大似然法(ML)[4]、限制性极大似然法(REML)[5]和最小方差二次无偏估计法(MIVQUE)[6]等。

在猪的育种中，育种的主要目标性状是生长、繁殖、肉质和胴体等性状，但是受遗传和非遗传因素影响广泛，所以种猪的遗传评估显得尤为重要[7]。遗传评估的首要内容是估计候选个体重要性状的育种值(breeding value)。在二十世纪七八十年代，Henderson[8]提出了最佳线性无偏估计法(best linear unbiased prediction, BLUP)，该方法被广泛用于动物育种实践中。随着分子数量遗传学的出现和发展，动物育种在传统育种方法的基础上衍生出了分子标记辅助育种。2001年，Meuwisen等[9]提出了全基因组选择，主要是利用覆盖全基因组的标记将染色体分成大量的片段，然后通过标记基因型结合表型信息估计每个染色体片段的效应，最后利用个体所携带的标记信息，估计个体全基因组育种值并进行选择。全基因组选择的概念提出后，Vanraden[10]阐述了如何构建全基因组亲缘关系矩阵，并替换基于系谱构建的亲缘关系矩阵，然后，用混合线性模型来估计育种值，称之为GBLUP。Aguilar等[11]提出将传统的分子血缘矩阵和全基因组标记构建的亲缘关系矩阵合并，构建成H矩阵替换系谱构建的亲缘关系矩阵，用于估计育种值，这种方法被称为一步法。Meuwisen等[9]最早提出了两种贝叶斯方法，在这基础上标记效应的先验假设不断改进，产生了一系列的贝叶斯方法：BayesA[9]、BayesB[12]、BayesC[13]、BayesCπ[14]、BayesR[15]、BayesLASSO[16]和BSLMM[17]等。

2011年，Clark等[18]用模拟数据研究发现，性状遗传力为0.3左右并受少量QTL控制时，BayesB预测的准确性明显优于GBLUP；Christensen等[19]于2011年用一步法对杜洛克猪的日增重和饲料转化效率两种性状进行遗传评估，结果优于GBLUP；2015年，Do等[20]用GBLUP、BayesA、BayesB和BayesLASSO预测杜洛克猪日增重和背膘厚的准确性，研究显示，BayesA的准确性比较好。影响模型预测准确性的因素有很多[21-22]，如SNP的数量、QTL效应的分布、表型及基因型信息和遗传力等[23]，但不同目标性状中预测方法的准确性存在差异。

全基因组选择的优势主要在于提高育种值估计准确性、增加年遗传进展、降低成本等，这将对中国种猪的遗传改良发挥巨大的推动作用[24]。本研究针对不同的育种目标性状，基于不同假设的统计方法计算育种值估计准确性，为筛选合适的选择方法，制定合理的选育策略提供理论依据。

1 材料与方法 1.1 试验猪群

原始数据来自湖南某种猪场2015-2016年的育种记录，测定母猪有2 585头，品种全部为大白猪，体重测定从30~100 kg，达100 kg时进行活体背膘厚测定，系谱、测定批次、性别信息完整。利用Excel 2010对记录数据进行预处理，剔除表型缺失值、重复数据，校正及标准化，保留样品含量足够的性状，最后纳入分析的性状包括达100 kg日龄(AGE100)、达100 kg背膘厚(BT100)和母猪乳头数(TN)3个性状。大白种猪的系谱及数据信息见表 1。

表 1(Table 1) 表 1 达100 kg日龄、达100 kg背膘厚和乳头数的描述性统计量 Table 1 Descriptive statistics for the age and backfat thickness at 100 kg and teat numbers 性状Trait 达100 kg日龄/dAGE100 达100 kg背膘厚/mmBT100 乳头数TN 个体数Number of animals 2 585 2 585 2 585 基因型个体数Number of genotyped animals 573 573 573 父系个体数Number of sire 174 174 174 母系个体数Number of sow 1 491 1 491 1 491 最大值Maximum 203.2 22.57 16 最小值Minimum 110.0 6.81 11 平均值Mean 157.2 12.91 14 标准差Standard deviation 9.67 1.62 0.79 变异系数/%Coefficient of variation 6.15 12.59 5.63 表 1 达100 kg日龄、达100 kg背膘厚和乳头数的描述性统计量 Table 1 Descriptive statistics for the age and backfat thickness at 100 kg and teat numbers 1.2 基因组SNPs数据的获得与处理

试验猪群的SNPs数据由GeneSeek公司猪50K芯片(Illumina Porcine 50K SNP)测定。用磁珠法从试验猪群采集的耳组织提取全基因组DNA，经检测合格，送交公司完成基因分型，获得原始数据。利用Plink软件对基因型数据进行质量控制。质量控制标准设定为基因型缺失率10%以下，检出率(call rate)90%以上，最小等位基因频率(MAF)3%以上，哈迪温伯格平衡检验(HWE)为1×10-6，最后将获得的573个个体和48 317个有效SNPs用于基因组选择分析。

1.3 基因组选择中的经典模型与假设 1.3.1 BLUP模型： $ y = Xb + Z\mu + e $

其中，y为表型值向量，b是固定效应向量，μ是随机效应向量，e是随机残差效应向量，X和Z分别为对应固定效应和随机效应的设计矩阵。GBLUP将传统BLUP由系谱构建的分子血缘矩阵(A矩阵)替换为全基因组标记构建的亲缘关系矩阵(G矩阵)[10]。SSGBLUP是利用全基因组标记信息和系谱信息构建的个体间关系矩阵(H矩阵)代替A矩阵[11]，其核心是构建H矩阵的逆矩阵，构造如下：

$ {\boldsymbol{\rm{H}}^{ - 1}} = {\boldsymbol{\rm{A}}^{ - 1}} + \left[ {\begin{array}{*{20}{c}} \mathit{\boldsymbol{0}}&\mathit{\boldsymbol{0}}\\ \mathit{\boldsymbol{0}}&{\omega (\boldsymbol{\rm{G}}_a^{ - 1} - \boldsymbol{\rm{A}}_{22}^{ - 1})} \end{array}} \right] $

其中，Ga=αG+β，A的下标2表示进行基因分型的个体。

1.3.2 贝叶斯模型： $ y = Xb + \sum\limits_{i = 1}^m {{Z_i}{g_i} + e} $

其中，y为表型值向量，X为固定效应设计矩阵，b为固定效应向量，Zi为第i个位点基因型向量(0, 1, 2)，gi为第i个位点估计效应值，e为残差向量。

1.3.3 基因组选择方法的假设

在全基因组选择中，GBLUP和SSGBLUP假设标记的效应服从正态分布；BayesA假设所有SNP位点都有效应；BayesB假设少部分标记位点有效应，大部分染色体片段效应值为0，无效应的位点比例为π；BayesLASSO假设标记的效应服从拉普拉斯(Laplace)分布，拉普拉斯分布等价于方差服从指数分布的正态分布；BayesC、BSLMM(Bayesian sparse linear mixed model)和BayesR都假设标记效应的先验服从混合分布。全基因组选择模型及具体假设见表 2。

表 2(Table 2) 表 2 各种全基因组选择的方法及效应分布[16] Table 2 Different genomic selection methods and effect distributions[16] 方法Method 所有标记的效应的假设分布Assumed distribution of effect 所有标记的效应分布公式Formula of effect distribution BLUP normal βi~N(0, σa2) BayesA t βi~t(0, ν, σa2) BayesB point-t βi~πt(0, ν, σa2)+(1-π)δ0 BayesC t mixture βi~πt(0, ν, σa2)+(1-π)t(0, ν, 0.01σa2) BayesLASSO double exponential βi~DE(0, θ) BSLMM normal mixture βi~πN(0, σa2+σb2)+(1-π)N(0, σb2) BayesR point-normal mixture βi~π1N(0, σa2)+π2N(0, 0.1σa2)+π3N(0, 0.01σa2)+(1-π1-π2-π3)δ0 β表示标记的效应；DE表示双指数分布；ν表示自由度；π表示比例参数；δ0表示为0β is effect of marker; DE denotes double exponential distribution; ν is the degree of freedom parameter; π is the scale parameter; δ0 denotes a point mass at zero 表 2 各种全基因组选择的方法及效应分布[16] Table 2 Different genomic selection methods and effect distributions[16] 1.4 基因组选择的分析工具

基因组选择的交叉验证(cross-validation)选择5-倍交叉验证，先将分型个体作为样本随机等分成5份，然后依次将每一份样本作为测试集，剩余4份作为训练集，循环5次，使每份样本轮流充当一次测试集，用估计的GEBV和yc的相关性来确定预测的准确性(r)。yc为动物个体随机效应和残差校正后的表型数据(${y_c} = \hat g + \hat e$)，最后用相关系数的平均值作为预测准确性的评估指标。

单独地，SSGBLUP利用所有个体的表型信息、系谱信息和分型个体的基因型信息，剔除测试集的表型信息，估计其GEBV，再依次循环5次，确定预测的准确性。其中，A22矩阵的对角线元素和非对角线元素的均值分别是1.001 4和0.028 5，G矩阵的对角线元素和非对角线元素的均值分别为0.988 6和-0.001 7。参数设置ω为0.95，α为0.98，β为0.03。

2 结果 2.1 不同亲缘关系大白猪主要性状遗传力的估计

达100 kg日龄、达100 kg背膘厚和乳头数的描述性统计量见表 1。分别由系谱亲缘关系构建的传统加性血缘关系矩阵和基因组SNPs信息构建的遗传关系矩阵，建立混合线性模型，用平均信息约束最大似然法(average information restricted maximum likelihood，AIRESML)估计遗传方差和剩余方差，通过加性遗传方差占总方差的比例估计各性状的遗传力。由全基因组亲缘关系矩阵估计AGE100、BT100和TN的遗传力和标准误分别为0.340(0.078)、0.318(0.078)和0.140(0.071)，均低于利用传统加性血缘关系矩阵估计AGE100、BT100和TN的遗传力和标准误0.584(0.124)、0.416(0.112)和0.176(0.093)。AGE100的遗传力最高，BT100次之，TN的遗传力最低。TN性状属于低遗传力性状，AGE100和BT100性状的遗传力估计值均达到中、高等遗传力水平。各性状遗传力和标准误估计结果见表 3。

表 3(Table 3) 表 3 各性状遗传力估计结果 Table 3 Results of heritability estimation for each trait 性状Trait 遗传力(标准误)Heritability(SE) 系谱亲缘关系Pedigree relationship 全基因组亲缘关系Genomic relationship AGE100 0.584(0.124) 0.340(0.078) BT100 0.416(0.112) 0.318(0.078) TN 0.176(0.093) 0.140(0.071) 表 3 各性状遗传力估计结果 Table 3 Results of heritability estimation for each trait 2.2 大白猪重要性状基因组选择不同模型比较 2.2.1 针对大白猪达100 kg日龄的基因组选择交叉验证

通过进行5-倍交叉验证，使用GBLUP、SSGBLUP、BayesA、BayesB、BayesC、BayesLASSO、BSLMM和BayesR对AGE100开展基因组预测，用GEBV和yc的相关性来确定预测的准确性，结果如表 4所示，AGE100的准确性分别是0.342 1、0.361 5、0.329 8、0.332 6、0.322 9、0.327 5、0.327 6和0.330 7。从结果中可以看出，在AGE100中估计个体育种值的准确性SSGBLUP最高，GBLUP、BayesB、BayesR、BayesA、BSLMM和BayesLASSO次之，BayesC最低。

表 4(Table 4) 表 4 各性状基于不同方法的交叉验证分析结果 Table 4 Results of cross-validation based on different methods for each trait 方法Method 达100 kg日龄AGE100 达100 kg背膘厚BT100 乳头数TN GBLUP 0.342 1 0.272 4 0.132 3 SSGBLUP 0.361 5 0.336 4 0.095 5 BayesA 0.329 8 0.318 5 0.135 1 BayesB 0.332 6 0.327 9 0.120 4 BayesC 0.322 9 0.331 9 0.124 4 BayesLASSO 0.327 5 0.320 3 0.122 9 BSLMM 0.327 6 0.325 4 0.126 0 BayesR 0.330 7 0.321 5 0.132 8 表 4 各性状基于不同方法的交叉验证分析结果 Table 4 Results of cross-validation based on different methods for each trait 2.2.2 针对大白猪达100 kg背膘厚的基因组选择交叉验证

通过进行5-倍交叉验证，使用GBLUP、SSGBLUP、BayesA、BayesB、BayesC、BayesLASSO、BSLMM和BayesR对BT100开展基因组预测，用GEBV和yc的相关性来确定预测的准确性，结果如表 4所示，BT100的准确性分别是0.272 4、0.336 4、0.318 5、0.327 9、0.331 9、0.320 3、0.325 4和0.321 5。从结果中可以看出，在BT100中估计个体育种值的准确性SSGBLUP最高，BayesC、BayesB、BSLMM、BayesR、BayesLASSO和BayesA次之，准确性最低的是GBLUP。

2.2.3 针对大白母猪乳头数的基因组选择交叉验证

通过进行5-倍交叉验证，使用GBLUP、SSGBLUP、BayesA、BayesB、BayesC、BayesLASSO、BSLMM和BayesR对TN开展基因组预测，用GEBV和yc的相关性来确定预测的准确性，结果如表 4所示。TN的准确性分别是0.132 3、0.095 5、0.135 1、0.120 4、0.124 4、0.122 9、0.126 0和0.132 8。从结果中可以看出，在TN中估计GEBV的准确性BayesA最高，BayesR、GBLUP、BSLMM、BayesC、BayesLASSO和BayesB次之，SSGBLUP准确性最低。

2.2.4 8种方法基因组预测效果的比较

对照各遗传力估计值与不同基因组选择模型的预测准确性，可以发现，GBLUP、SSGBLUP、BayesA、BayesB、BayesC、BayesLASSO、BSLMM和BayesR 8种方法的预测准确性大致表现出与AGE100、BT100和TN 3种性状遗传力成正比关系。从不同假设的方法来看，在AGE100和BT100中，SSGBLUP基因组预测准确性均为最高，在AGE100中，GBLUP和BayesB的基因组预测准确性次于SSGBLUP，而在BT100中BayesC和BayesB的基因组预测准确性次于SSGBLUP；在TN中，BayesA的基因组预测准确性最高，BayesR和GBLUP的基因组预测准确性次于BayesA(表 4)。

3 讨论

本研究系统地探讨了基于不同前提假设模型用于猪3种不同遗传结构性状基因组选择的相关问题。首先，本研究通过拟合广义线性模型(GLM)对固定效应进行显著性检验，选取显著固定效应校正模型，进而估计不同目标性状遗传力。虽然遗传力估计受标记数量与密度、群体大小及数据记录等因素的影响，本研究分析的对象是已经存在的真实数据集，这些因素均已无法探讨，但数据集中年份、胎次、初生重、日龄及结测体重等因素可作为模型固定效应影响遗传力估计[25]，本研究中估计AGE100和TN的遗传力略高于相关研究[26-27]，而BT100遗传力估计结果略低于相关研究[26, 28]。利用传统加性血缘关系和全基因组亲缘关系估计的遗传力存在差异，原因可能是全基因组亲缘关系矩阵比传统的估计育种值所用的系谱亲缘关系矩阵更真实的反映个体间的遗传关系[10]。有研究证明，可能由于共同的环境组分使基于系谱亲缘关系的动物模型估计遗传力有较大偏差，过高的估计遗传方差[29]。本研究中，AGE100和TN遗传力估计结果中利用全基因组亲缘关系矩阵与相关研究更为接近[26, 28]，也说明了在猪中估计不同性状时利用基于全基因组标记构建遗传关系矩阵的动物模型可能更加适合。

本研究重点探讨了GBLUP、SSGBLUP、BayesA、BayesB、BayesC、BayesLASSO、BSLMM和BayesR 8种不同方法对目标性状基因组预测的适用性。发现基因组选择的准确性与性状遗传力估计值呈正相关，8种方法预测准确性最高的性状是AGE100，准确性最低的是TN。考虑目标性状的遗传结构时，对中、高等性状计算基因组估计育种值时SSGBLUP有较高的价值，其充分利用了没有进行基因分型个体的系谱信息和基因分型个体的基因型信息[30]，提高了参考群体的数量；BayesB表现比较稳定可能有较高的选择价值，BayesB认为大部分(π)标记无效应，只有少部分(1-π)标记具有效应，这小部分标记的条件后验分布采用t分布[9]，研究QTLMAS的数据表明，BayesB比GBLUP、LASSO和BayesA估计个体基因组育种值的准确性要高[31]；在群体数量较小的情况下，GBLUP计算基因组估计育种值的准确性显然没有想象的低[32]；由于GBLUP和BayesC在中、高等遗传力性状中表现并不稳定，特定性状可以考虑GBLUP和BayesC。在低等遗传力性状中，首选BayesA计算性状的GEBV可能有更高的价值。GBLUP提出的假设是标记位点信息具有相同的先验分布方差，并且服从正态分布，可能不符合生物学和实际情况，BayesR由于将标记的效应分布分成了不同的梯度[15]，服从含有正态分布的混合分布，而BayesA假设服从t分布，因此服从t分布假设的模型适用于低等遗传力性状的能力可能更强。综合来看，对于基因组预测方法的选择，可能没有绝对的标准，最适的预测方法要考虑目标性状的遗传结构。

本研究计算估计育种值的准确性都在0.35以下，准确性偏低[33-34]，且用交叉验证计算每次的准确性不稳定，原因可能是全基因组选择的群体数量较小、抽样误差较大。所以，开展基因组选择时需要综合考虑遗传结构、样本含量以及交叉验证倍数等因素。

4 结论

本研究用GBLUP、SSGBLUP、BayesA、BayesB、BayesC、BayesLASSO、BSLMM和BayesR 8种方法对大白猪达100 kg日龄、达100 kg背膘厚和母猪乳头数3种性状进行了基因组选择分析。研究发现，性状遗传力对基因组选择的准确性有重要影响，无论用哪种方法，基因组选择准确性最高的是AGE100，准确性最低的是TN。在对小样本开展基因组预测时，中、高等遗传力性状可以选择SSGBLUP，低等遗传力性状可以选择BayesA，没有适用于所有性状的最优方法。本研究为中国猪育种开展基因组选择提供了重要的参考信息。

【本文地址】

猪主要经济性状的基因组选择研究

猪主要经济性状的基因组选择研究

今日新闻

推荐新闻