基于双层耦合网的表型

2024-04-17 15:46| 来源: 网络整理| 查看: 265

目前，挖掘疾病表型与致病基因的关联关系是一个极具挑战的课题。如果能够设计出高精度的致病基因预测方法，对于生物学家、临床医师和遗传学家等相关人员来说具有非常重要的意义。这不但有助于提高发现致病基因的准确率，缩短发现致病基因的周期，节省大量的人力物力，同时也为将来的生物医学和基因治疗诊断等技术的发展奠定重要基础。

随着计算机和生物技术的迅猛发展，大量的生物信息数据的产生，疾病和基因知识的可用性大幅度提高，科研人员也相应提出了一系列疾病与基因预测的计算方法。其中，随机游走是疾病与基因关联关系预测中较为常见的办法，主要包括重启随机游走和双向随机游走等几种类型。文献[3]在双层耦合网络上提出了重启随机游走，用于推断潜在的miRNA与疾病的相关性。文献[4]开发了BiRWHMDA的计算模型，通过在双层耦合网络上的双向随机游走来预测潜在的微生物与疾病关联。文献[5]提出在双层耦合网络上基于多路径的双向随机游走预测微生物与疾病相关性。文献[6]结合表型相似网络、基因相似网络和表型基因关联网络构成表型基因双层耦合网络，并在其上采用重启随机游走算法，推出了一种新的预测疾病致病基因的方法。文献[7]采用了带重启的随机游走算法和最短路径这两种广泛使用的算法，构造了两种参数化计算方法，即基于RWR的方法和基于SP的方法，并在此基础上构建了一种新的疾病基因识别的集成方法。

利用矩阵预测疾病与基因关系也是一个不错的办法。文献[8]提出了一种基于归纳式矩阵补全预测潜在lncRNA与疾病相关性的方法(predict lncRNA-disease associations from known data using IMC, SIMCLDA)。文献[9]开发了一种利用协同矩阵因子分解预测人类微生物疾病相关性的模型(collaborative matrix factorization for human microbe-disease association, CMFHMDA)。文献[10]提出一种基于Katz方法的预估计和基于归纳型矩阵补全方法的精化估计两步骤的Katz增强归纳型矩阵补全的基因−疾病关联预测模型。

把高斯相互作用应用于预测之中，文献[11]应用高斯相互作用轮廓核相似测度确定微生物相似性和疾病相似性。文献[12]建立了用于miRNAs与疾病相关性预测的双层耦合网络推理的计算模型，通过整合miRNAs功能相似性、疾病语义相似性、高斯相互作用来揭示潜在的miRNAs与疾病相关性。

将路径作为预测分数，文献[13]引入PBHMDA(path-based human microbe-disease association)，通过对微生物与疾病之间的所有路径进行评估，得出每个候选微生物与疾病对的预测得分。

研究人员还提出了其他一些疾病与基因关系预测的办法。文献[14]提出了一种基于SimRank和密度聚类推荐模型的miRNA与疾病相关性预测方法(based on the SimRank and density-based clustering recommender model for miRNA-disease associations prediction, SRMDAP)。文献[15]基于miRNA与疾病关联预测评分模型(within and between score for MiRNA-disease association prediction, WBSMDA)预测与各种复杂疾病关联的miRNAs。文献[16]采用拉普拉斯正则化最小二乘分类器(Laplacian regularized least squares for human microbe–disease association, LRLSHMDA)建立预测模型。文献[17]将链路预测的思想引入到长非编码RNA−疾病关联预测中。文献[18]提出一种基于密度聚类的二分网络投影算法(bipartite network projection based on density clustering to predict miRNA-disease associations, BNPDCMDA)来预测miRNA−疾病关联。

以随机游走为主导思想的预测方法能够扩大候选基因的范围，可以避免遗漏连接度低和网络边缘的节点，尤其是在多基因疾病的预测中，可以大大提高预测候选致病基因方法的性能；在矩阵预测中，数据的稀疏对预测有很大的影响，PU问题也是需要面对的另一个问题，加入Katz方法也只缓解部分影响；使用高斯相互作用预测将疾病或者基因的相互作用信息作为特征向量，引入高斯核函数，计算疾病或基因间的相似度后在进行疾病和基因之间的相似预测，但是对高斯相互作用相似度参数标准化后，基因或疾病高斯核相互作用相似值就不在依赖于数据集；路径预测利用了生物信息节点之间的拓扑结构，在拓扑结构的基础上预测；其他一些算法都是基于机器学习的一些思想进行关联预测的，然而有监督的机器学习算法，需要假设与疾病相关的基因和不相关的基因是不关联的，但是被证明与疾病相关的基因数量较少，且很少有实验能够证明那些关系是不存在的。

进行多种算法比较研究后，可知基于随机游走的方法相比矩阵预测或聚类的方法存在一定优越性。本文根据疾病表型和疾病基因数据节点属于不同类型节点这一特点，基于疾病表型和疾病基因数据来构成双层耦合网络，提出了在表型−基因的双层耦合网络基础上进行带有元路径的随机游走，从而实现关联关系的预测与分析算法。

【本文地址】

基于双层耦合网的表型

基于双层耦合网的表型

今日新闻

推荐新闻