基于芯片数据估计不同方法对槐猪近交系数的影响

您所在的位置：网站首页 › 近交系数公式 › 基于芯片数据估计不同方法对槐猪近交系数的影响

基于芯片数据估计不同方法对槐猪近交系数的影响

2024-07-05 05:53| 来源: 网络整理| 查看: 265

近交是血缘相关或遗传组成相似个体间的交配繁殖。在畜牧生产中，群体规模有限，近交在所难免。近交水平的增加会导致基因组中有害纯合子的增加[1]，也会导致群体遗传多样性的降低[2-3]。近交系数(inbreeding coefficient)表示一个个体中随机选择两个等位基因位点是血缘同源(identical by descent, IBD)的概率[4]，近交系数也展示了通过近交降低个体杂合性的比例[5-6]。传统近交系数的计算方法是基于完整的系谱记录信息[7-8]。但在实际生产中，系谱信息的缺乏、不完整、错误率高等都是常见的现象，因此无法准确评估近交系数和亲缘关系[9]。近年来，随着分子生物学技术的高速发展和测序成本的大幅下降，基因组测序、芯片等高通量变异检测技术被广泛应用于家畜的近交程度和亲缘关系的研究中，为家畜育种提供了重要的技术参考[10-11]。

使用基因组数据计算近交系数主要基于SNP纯合性法[12-13]，基于SNP间方差法[14-15]和基于连续性纯合片段法[16-17] (runs of homozygosity，ROH)。基于SNP间方差法来自于基因预测中的亲缘关系矩阵，该关系矩阵取代了最佳线性无偏估计(best linear unbiased predicted，BLUP)中的分子亲缘关系矩阵。根据分子亲缘关系矩阵对角线元素等于1加上近交系数，所以一般认为基因型亲缘关系矩阵的对角线为1加上相应个体的基因型近交系数[18-19]。而基于SNP纯合性法与基于SNP间方差法其个体近交系数可能出现负值[20]。ROH是由亲代将来自共同祖先同一段单倍型传递给后代所形成，一般属于IBD单倍型片段。基于ROH的近交系数能同时避免系谱近交系数低估和SNP近交系高估的问题[21]。同一个体不同基因组近交系数的估计结果可能存在较大的差异。因此，比较不同基因组个体近交系数间的差异与相关性，有助于准确评估群体近交程度，维持群体遗传多样性。

槐猪是我国优良地方猪种，具有母性好、繁殖能力强、耐粗饲、营养价值高等优良特性。近年来，随着外来瘦肉型商品猪种大量冲击中国生猪市场以及非洲猪瘟的侵袭，槐猪和绝大多数中国地方猪种一样面临有效群体减少的风险。为此，本试验拟使用槐猪保种群作为研究对象，采用不同的计算方法估计槐猪个体的近交系数，揭示不同参数条件下基因组近交系数的结果及相对优势，以期为评估猪个体近交水平、防止近交衰退和优化选种选配方案提供技术参考。

1 材料与方法 1.1 试验群体

本试验所用群体来自福建傲农保种场提供的247头槐猪个体(300日龄)，其中包括19头公猪，228头母猪，个体间基本无亲缘相关。使用磁珠法组织基因组提取试剂盒从猪耳组织和公猪原精中提取基因组DNA，检测DNA浓度及琼脂糖凝胶电泳符合分型标准后，在北京康普森生物技术有限公司进行猪“中芯一号”50K芯片分型。

1.2 基因型填充及质控

为避免缺失基因型对近交系数计算的影响，本试验使用Beagle v5.4[22]对原始芯片数据进行基因型填充。使用plink v1.90[23]对芯片填充数据进行质控，选择次等位基因频率(minor allele frequency，MAF)≥0.05、哈迪-温伯格平衡(Hardy-Weinberg equilibrium，HWE)检验P < 1×10-5的SNPs进行近交系数计算。

1.3 基因组近交系数计算

1.3.1 近交系数计算方式　　基于SNP纯合性评估近交系数为Fhom1[23]、Fhom2[24]，其计算公式如下：

$ { Fhom } 1=\frac{O(h o m)-E(h o m)}{S-E(h o m)}=1-\frac{\sum _{k=1}^S x_k\left(2-x_k\right)}{\sum _{k=1}^S 2 p_k\left(1-p_k\right)} ; \\ { Fhom } 2=\frac{O(h o m)-E( { hom })}{1-E( { hom })}=1-\frac{1}{S} \sum _{k=1}^S \frac{x_k\left(2-x_k\right)}{2 p_k\left(1-p_k\right)} $

在Fhom1中O(hom)、E(hom)、S分别表示纯合子观察数目、纯合子期望数目、SNP总数。在Fhom2中O(hom)、E(hom)分别表示纯合子比例、纯合子期望比例。xk为个体在第k个SNP上的次等位基因剂量数，pk为群体在第k个SNP上的次等位基因频率，下同。

根据Vanraden[18]的基因组亲缘关系矩阵的对角线元素计算得出的近交系数为Fvan1、Fvan2, 其计算公式如下：

$\begin{gathered} F {van} 1=\frac{1}{S} \sum\nolimits_{k=1}^S\left(\frac{\left(x_k-2 p_k\right)^2}{2 p_k\left(1-p_k\right)}-1\right) ; \\ F {van} 2=\frac{\sum\left(x_k-2 p_k\right)^2}{2 \sum p_k\left(1-p_k\right)} \end{gathered} $

根据Yang等[24]的基因组亲缘关系矩阵的对角线元素计算得出的近交系数为Fyang, 其计算公式如下：

$ { Fyang }=\frac{1}{S} \sum _{k=1}^s \frac{x_k^2-\left(1+2 p_k\right) x_k+2 p_k^2}{2 p_k\left(1-p_k\right)}。$

在基因组某一段区域内，当一定数量一定密度的SNPs表现为纯合时，可以判定该区域存在连续性纯合片段。利用ROH计算近交系数为Froh[25-26], 其公式如下:

$ { Froh }=\sum L_{{ROH}} / L_{ {auto }} {, } $

其中，LROH为常染色体上ROH片段的长度，Lauto为常染色体的总长度。ROH检测使用plink v1.90[23]软件，使用滑动窗口的方法对常染色体进行检测，具体的检测参数：至少连续50个SNPs；连续SNP间的距离小于1 Mb；最多允许ROH中有1个杂合；窗口阈值为0.01；密度为0.01 SNP/kb；ROH长度大于1 Mb、5 Mb分别记为Froh1、Froh5。

1.3.2 SNP数目对近交系数评估的影响　　为比较不同SNPs数目对近交系数评估的影响，试验从质控后的SNPs中随机选择100、200、500、1 000、2 000、5 000、10 000和20 000个SNPs，计算群体的Fhom1、Fhom2、Fvan1、Fvan2和Fyang，试验重复100次。

1.3.3 不同近交系数统计描述及相关性分析　　使用质控后的SNPs(31 545个)计算群体中所有个体Fhom1、Fhom2、Fvan1、Fvan2、Fyang、Froh1和Froh5值，计算不同近交系数评估方式在群体中的最小值、最大值、平均值和方差。为比较不同近交系数计算方式的相关性，本试验使用Person相关系数和Spearman秩相关系数计算不同近交系数评估方式间的相关性。

2 结果 2.1 芯片数据填充与质控

本试验使用“中芯一号”对247头槐猪进行基因分型，共包含57 466个SNPs。利用Beagle v5.4对槐猪的芯片数据进行基因型填充，共获得55 156个无缺失SNPs。剔除了829个HWE检验P值小于1×10-5和22 782个MAF < 0.05的SNPs，最终保留31 545个SNPs用于后续分析。

2.2 SNP数目对近交系数评估的影响

为探究SNP数目对近交系数评估的影响，试验随机选择了100、200、500、1 000、2 000、5 000、10 000、20 000个SNPs来计算群体的近交系数(Fhom1、Fhom2、Fvan1、Fvan2和Fyang)，重复试验100次。结果如图 1所示，虚线为使用质控合格的31 545个SNPs计算的近交系数值。试验发现，随着SNP数目的增加，个体近交系数Fhom1、Fhom2、Fvan1和Fyang的极差逐渐减小，而当SNP数目达到10 000个左右时近交系数趋于稳定，其值与使用所有合格SNPs所计算的近交系数相近。值得注意的是，Fvan2值趋近于0，且随着SNP数目的增加基本无明显变化。

图 1(Fig. 1) Fig. 1 图 1 不同SNP数评估近交系数分布图 Fig. 1 Distribution of inbreeding coefficient of different SNPs number 2.3 不同近交系数评估方式描述性统计

随后，使用合格的SNPs(31 545个)来计算槐猪的近交系数：Fhom1、Fhom2、Fvan1、Fvan2、Fyang、Froh1和Froh2(表 1)。结果显示，Fhom1、Fhom2、Fvan1、Fvan2和Fyang的值分别为－0.216 5~0.344 0、－0.354 8~0.321 7、－0.322 8~ 0.892 1、－0.243 6~0.790 9、－0.189 4~0.543 3，近交系数均存在负值。Froh1和Froh2的值分别为0.008 7~0.406 9和0.002 2~0.402 4。

表 1(Table 1) 表 1 不同近交系数描述性统计 Table 1 Descriptive statistics of different inbreeding coefficients 计算方式Type 最小值Min 最大值Max 平均值Mean 方差SD Fhom1 －0.216 5 0.344 0 －0.050 4 0.090 3 Fhom2 －0.354 8 0.321 7 －0.045 8 0.116 3 Fvan1 －0.322 8 0.892 1 －0.045 8 0.202 9 Fvan2 －0.243 6 0.790 9 0 0.178 9 Fyang －0.189 4 0.543 3 －0.045 8 0.101 9 Froh1 0.008 7 0.406 9 0.106 4 0.061 0 Froh5 0.002 2 0.402 4 0.097 7 0.061 1 表 1 不同近交系数描述性统计 Table 1 Descriptive statistics of different inbreeding coefficients 2.4 不同近交系数评估方式相关性分析

为衡量不同近交系数评估方式间的相关性，使用Person相关系数进行相关性分析(图 2)。结果显示，Fhom1与Fhom2、Froh1、Froh5间有较强的相关性，分别为0.860 6、0.911 8和0.911 1；Fvan1与Fyang、Fvan2的相关系数分别为0.836 4和0.988 1；Fyang与Fvan2的相关性为0.874 4；Froh1与Froh5之间的相关性高达0.998 2。Fhom2与Fvan1、Fvan2呈现负相关，分别为－0.279 0和－0.192 0。

图 2(Fig. 2) Fig. 2 左下角为不同近交系数相关性散点图，右上角为不同近交系数Person相关系数，对角线为分布密度图 The lower left corner is the correlation scatter plot of different inbreeding coefficients, the upper right corner is the Person correlation coefficient of different inbreeding coefficients, and the diagonal line is the distribution density map 图 2 不同近交系数散点及Person相关系数图 Fig. 2 Scatter and Person correlation coefficient plots of different inbreeding coefficients

试验进一步通过Spearman秩相关系数计算不同近交系数评估方式间的相关性(图 3)。结果显示，Fhom1与Fhom2、Froh1、Froh5有较强的正相关，分别为0.828 0、0.825 6、0.821 4；Fvan1与Fvan2间有较强的正相关，为0.985 9；Fyang与Fvan2间有较强的正相关，为0.850 5；Froh1与Froh5间有较强的正相关，为0.995 2。Fvan1与Fhom1、Fhom2呈负相关，分别为－0.010 5和－0.489 0；Fvan2与Fhom2呈负相关，为－0.383 5。

图 3(Fig. 3) Fig. 3 左下角为不同近交系数排序散点图，右上角为不同近交系数Spearman秩相关系数 The lower left corner is the scatter plot of different inbreeding coefficients, and the upper right corner is the Spearman rank correlation coefficient of different inbreeding coefficients 图 3 不同近交系数秩散点及Spearman相关系数图 Fig. 3 Rank scatter and Spearman correlation coefficient diagrams of different inbreeding coefficients 3 讨论 3.1 不同SNP数目对基因组近交系数评估的影响

在本研究中，随着SNP数目增加，Fhom1、Fhom2、Fvan1、Fyang均值极差逐渐减少，当SNP数目达10 000时平均近交系数基本稳定，其值与利用所有质控合格的31 545个SNPs计算的近交系数值接近。这与此前Wang[27]发现当基因组较大时，SNP标记达10 000比系谱更能准确的评估个体近交系数结果相符。从Fhom1、Fhom2、Fvan1、Fyang等近交系数评估公式可知，个体近交系数为其不同位点近交系数的均值，当可用位点数较少时，评估个体近交系数值与真实值偏差较大，当可用位点数较多时，评估个体近交系数值与真实值偏差较小。Kardos等[28]发现，当SNP较小时，近交系数评估会出现较大的偏差。而Fvan2值随着SNP数目的增加基本无变化，且Fvan2值一直接近于0。从Fvan2近交系数评估公式可知，SNP取值方式对近交系数评估会产生较大的波动。Silió等[29]使用不同数目的SNP计算系谱近交系数与基因组近交系数间的相关性发现，随着SNP数目增加基因组近交系数与系谱近交系数的相关性增强，这也在一定程度上说明随着SNP数目的增加，分子近交系数的随机性减少。

3.2 不同近交系数评估方式计算个体近交系数的统计

在本研究中，槐猪的近交系数Fhom1、Fhom2、Fvan1、Fvan2、Fyang计算结果分别为－0.216 5~0.344 0、－0.354 8~0.321 7、－0.322 8~0.892 1、－0.243 6~0.790 9、－0.189 4~0.543 3，近交系数存在负值。Froh1、Froh2个体近交系数为0.008 7~ 0.406 9、0.002 2~0.402 4，其个体近交系数不存在负值。这可能是因为槐猪群体从不同地方收集组建而成，其来源较广，而在随机配种的大群体中，以当前群体为参照，远交个体间的近交系数为负值[30]。其中，Fhom1、Fhom2的近交系数计算方法会出现－∞~1的值，对于单个位点，其纯合子近交系数为1；对于单个位点，其杂合子近交系数为－∞~ 0[20, 31]。Fvan1、Fvan2、Fyang的近交系数计算方式会出现－1~∞的值，对于单个位点，其纯合子近交系数为－1~∞；对于单个位点，其杂合子近交系数为0~∞[20, 31]。由于赋予稀有位点更高的权重，个体稀有等位基因纯合时，基因组近交系数比普通等位基因更大[18]。而Froh1、Froh5的近交系数计算方式会将值控制在0~1之间[32-34]。Fhom1、Fhom2、Fvan1、Fvan2、Fyang的值可能超出了概率和相关性的允许范围[35-37]，但作为近交系数，这可以理解为变异性的损益与基础种群的变异性成正比，负值表示获得了变异性，正值表示失去了变异性[20]。

3.3 不同近交系数评估方式相关性

在本研究中，通过Person相关与Spearman秩相关分析可知，Fhom1与Fhom2、Froh1、Froh5间有较强的正相关；Fvan1与Fvan2间有较强的正相关；Fyang与Fvan2间有较强的的正相关；Froh1与Froh5间有较强的正相关；Fhom2与Fvan1、Fvan2呈现负相关。Caballero等[38]比较了100、1 000、10 000等3个不同规模群体的近交系数，均发现Fhom与Froh1、Froh5间有较强的正相关。Zhang[31]比较了50K芯片与序列数据的近交系数，发现Froh与Fhom间有较强的正相关且与Fvan和Fyang的相关性较差。其中，Froh被发现与系谱近交系数的相关性最强，可提供更好的估计效果[39-40]。这与本试验结果互相印证、结果相似。

在比较不同近交系数的取值范围与相关性后，试验推荐Froh作为基因组近交系数的评估方式，一方面是因为Froh的取值范围在0~1之间与系谱近交系数的取值范围接近，符合评估习惯；另一方面，Froh同Fhom1、Fhom2、Fvan1、Fvan2、Fyang等基因组近交系数评估方式有着一定的正相关性，评估结果适用度高。然而Froh受SNP的数目与密度影响较大，对基因分型成本要求较高。

4 结论

SNP数目较少时，个体近交系数随机误差较大，SNP数目较多时，个体近交系数与真实近交系数偏差较小。Fhom、Fvan、Fyang等近交系数均会出现负值，Froh近交系数在0 ~ 1之间。Froh同Fhom、Fvan、Fyang等近交系数评估方式有着一定的正相关，Fhom与Fvan间呈现负相关。当SNP数目与密度充足时，可采用Froh作为基因组近交系数度量值，可为基因组近交评估在地方猪的分子保种应用中提供技术参考。

【本文地址】

基于芯片数据估计不同方法对槐猪近交系数的影响

基于芯片数据估计不同方法对槐猪近交系数的影响

今日新闻

推荐新闻