视觉卷不动了,来看看分子领域?全球首个分子图像自监督学习框架ImageMol来了

您所在的位置:网站首页 jpp期刊 视觉卷不动了,来看看分子领域?全球首个分子图像自监督学习框架ImageMol来了

视觉卷不动了,来看看分子领域?全球首个分子图像自监督学习框架ImageMol来了

#视觉卷不动了,来看看分子领域?全球首个分子图像自监督学习框架ImageMol来了| 来源: 网络整理| 查看: 265

ImageMol 模型结构

ImageMol 的整体架构如下图所示,总共分为三部分:

(1) 设计一个分子编码器 ResNet18(浅蓝色),能够从约 1000 万张分子图像中提取潜在特征 (a) 。

(2)考虑分子图像中的化学知识和结构信息,利用五个预训练策略(MG3C、MRD、JPP、MCL、MIR)来优化分子编码器的潜在表示 (b) 。具体来说为:

① MG3C(Muti-granularity chemical clusters classification 多粒度化学簇分类):其中的结构分类器 Structure classifier(深蓝色)用于预测分子图像中的化学结构信息;

② MRD(Molecular rationality discrimination 分子合理性判别器):其中的合理性分类器 Rationality classifier(绿色),它用于区分合理与不合理的分子;

③ JPP(Jigsaw puzzle predicition 拼图预测):其中的拼图分类器 Jigsaw classifier(浅灰色)用于预测分子的合理排列;

④ MCL(MASK-based contrastive learning 基于 MASK 的对比学习):其中的对比分类器 Contrastive classifier(深灰色)用于最大化原始图像和 mask 图像之间的相似性;

⑤ MIR(Molecular image reconstruction 分子图像重建):其中的生成器 Generator(黄色)用于将潜在特征恢复分子图像,判别器 Discriminator(紫色)用于区分真实图像和生成器生成的假的分子图像。

(3)在下游任务中对预处理的分子编码器进行微调,以进一步提高模型性能 (c) 。

基准评估

作者首先使用 8 种药物发现的基准数据集来评估 ImageMol 的性能,并且使用两种最流行的拆分策略(scaffold split 与 random scaffold split)来评估 ImageMol 在所有基准数据集上的性能。在分类任务中,利用受试者工作特性(Receiver Operating Characteristic, ROC)曲线以及曲线下的面积(Area Under Curve, AUC)来评估,从实验结果可以看出,ImageMol 均能得到较高的 AUC 值 (图 a) 。

ImageMol 与预测分子图像的经典卷积神经网络框架 Chemception 在 HIV 和 Tox21 的检测结果对比 (图 b) ,ImageMol 的 AUC 值更高。本文进一步评估了 ImageMol 在预测五种主要代谢酶(CYP1A2, CYP2C9, CYP2C19, CYP2D6 和 CYP3A4)药物代谢方面的性能。图 c 显示,ImageMol 在五种主要药物代谢酶的抑制剂与非抑制剂的预测中,与三种最先进的基于分子图像的表示模型(Chemception46、ADMET-CNN12 和 QSAR-CNN47)相比,获得了更高的 AUC 值(范围从 0.799 到 0.893)。

本文进一步将 ImageMol 的性能与三种最先进的分子表示模型进行了比较,如图 d、e 所示。ImageMol 与使用随机骨架划分的基于指纹的模型(如 AttentiveFP)、基于序列的模型(如 TF_Robust)和基于图的模型(如 N-GRAM、GROVER 和 MPG)相比具有更好的性能。此外,与传统的基于 MACCS 的方法和基于 FP4 的方法相比,ImageMol 在 CYP1A2,CYP2C9,CYP2C19,CYP2D6 和 CYP3A4 上实现了更高的 AUC 值(图 f)。

ImageMol 与基于序列的模型(包括 RNN_LR、TRFM_LR、RNN_MLP、TRFM_MLP、RNN_RF、TRFM_RF 和 CHEM-BERT)和基于图的模型(包括 MolCLRGIN、MolCLRGCN 和 GROVER)相比,如图 g 所示,ImageMol 在 CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4 上实现了更好的 AUC 性能。

在以上 ImageMol 与其他先进的模型对比中,可以看出 ImageMol 的优越性。

自新冠疫情爆发以来,我们迫切需要为新冠疫情制定有效的抗病毒治疗策略。因此,作者在该方面对 ImageMol 做了相应的评估。

对 13 个 SARS-CoV-2 靶点的抗病毒活性进行预测

ImageMol 对现如今关注的热点病毒 SARS-CoV-2 进行了预测实验,在 13 个 SARS-CoV-2 生物测定数据集中,ImageMol 实现了 72.6% 至 83.7% 的高 AUC 值。图 a 揭示了通过 ImageMol 鉴定的潜在特征,它在 13 个靶点(target)或终点(endpoints)活性和无活性的抗 SARS-CoV-2 上很好的聚集,且 AUC 值均比另一种模型 Jure’s GNN 要高 12% 以上 ,体现出该模型的高精度和很强的泛化性。

另外,ImageMol 鉴定出 16 种已知 3CL 蛋白酶抑制剂中的 10 种,并将这 10 种药物可视化到图中的包埋空间(成功率 62.5%),表明在抗 SARS-CoV-2 药物发现中具有较高的泛化能力。使用 HEY293 测定来预测抗 SARS-CoV-2 可再利用药物时,ImageMol 成功预测了 70 种药物中的 42 种(成功率为 60%),这表明 ImageMol 在推断 HEY293 测定中的潜在候选药物方面也具有很高的推广性。下图 c 展示了 ImageMol 在 DrugBank 数据集上发现 3CL 潜在抑制剂的药物。图 d 展示了 ImageMol 发现的 3CL 抑制剂的分子结构。

注意力可视化

ImageMol 可以从分子图像表示中获取化学信息的先验知识,包括 = O 键、-OH 键、-NH3 键和苯环。图 b 和 c 为 ImageMol 的 Grad-CAM 可视化的 12 个示例分子。这表示 ImageMol 同时准确地对全局 (b) 和局部 (c) 结构信息进行注意捕获,这些结果使研究人员能够在视觉上直观地理解分子结构是如何影响性质和靶点。

返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3