长春应化所孙昭艳团队 Chem. Sci.:聚合物性质预测大语言模型

您所在的位置:网站首页 physbrief02 长春应化所孙昭艳团队 Chem. Sci.:聚合物性质预测大语言模型

长春应化所孙昭艳团队 Chem. Sci.:聚合物性质预测大语言模型

2023-12-13 10:06| 来源: 网络整理| 查看: 265

  从古老的结绳计数、甲骨文到现代的音频、视频,各式各样的“语言“推动了人类文明的前进。最近的大语言模型(LLMs),以其用户友好的输入格式、强大的生成能力,正在重塑计算机视觉和自然语言处理领域,也让我们开始期待LLMs在帮助科学研究中的前景。

  LLMs可在诸如性质预测、材料设计、分子描述等科学任务中发挥作用,并已经在生命科学、无机材料领域有了成功的案例,如bioGPT(Brief. Bioinformatics, 2022, 23, 6, bbac409)和MatChat(Chinese Phys. B, 2023, 32, 118104)。然而,在聚合物领域,目前只有两个基于LLMs开发的聚合物模型,即TransPolymer(npj Comput. Mater., 2023, 9, 64)和polyBERT(Nat. Commun., 2023, 14, 4099)。但它们仍然采用以往的特征提取范式,从预训练语言模型中提取聚合物结构(如SMILES)的机器描述符,作为下游机器学习模型的输入向量,未能充分发挥语言模型的优势。

  长春应用化学研究所孙昭艳研究员课题组最近正在进行聚合物的机器学习研究,并建立了一系列聚合物构效关系模型(Polymer, 2022, 256, 125216; J. Mater. Chem. C, 2023, 11(8), 2930-2940等)。为了开发聚合物LLMs原型,孙昭艳研究员课题组推出了PolyNC(图1),一个完全基于自然语言和化学语言输入的聚合物性质预测模型。PolyNC消除了以往聚合物机器学习过程中手工制作描述符或指纹的需要。相反,它直接以人类自然语言提示和聚合物结构(例如常用的SMILES表示法)作为输入,并生成所需的输出。 

图1. PolyNC模型架构

  PolyNC不仅实现了端到端的学习和推理模式,孙昭艳研究员课题组还将其能力扩展到在一个模型中同时预测多种聚合物任务和多种类型的任务(回归和分类任务,见图2)。这种能力在先前的聚合物机器学习模型中是前所未有的(受限于回归和分类模型固有的算法限制)。因此,PolyNC是一种兼容多任务和多类型任务的统一模型,为更方便的聚合物开发提供了基础。 

图2. PolyNC在聚合物回归、分类任务上取得优异性能

  在具体实施中,受限于聚合物数据的困乏,孙昭艳研究员课题组没有选用具有超大参数的语言模型,而是选择了拥有2.2亿参数的T5模型。同时,使用数据增强技术丰富了聚合物数据集,并最终获得了涵盖四类聚合物任务的数据集:玻璃化转变温度(Tg,回归任务,6850条数据)、聚合物晶体带隙(BC,回归任务,4720条数据),原子化能(AE,回归任务,5850条数据)和聚合物耐热等级(HRC,分类任务,5550条数据)。在训练阶段,使用了余弦衰减策略动态调整学习率,峰值学习率为5E6,训练100个轮次达到收敛,并在这些任务中取得了与先进机器学习方法相近或更好的结果(见图3)。 

图3. 模型训练动力学和表现

  孙昭艳研究员课题组还尝试检验了PolyNC对于未知聚合物的泛化能力,以Tg任务为例,设计了两个未曾出现在训练集和测试集中的分子,并通过合成与表征说明了PolyNC对这两个未知分子的泛化能力表现最佳(见图4)。 

图4. 泛化能力测试

  通过对输入序列的注意力分析,孙昭艳研究员课题组发现PolyNC对邻近的语言片段给予了较高的注意力权重,因为邻近的语言片段往往属于同一个官能团。此外,PolyNC还具备感知结构变化的能力(见图5)。 

图5. 注意力分析

  值得说明的是,受限于缺少更多高质量聚合物数据集,PolyNC目前可处理的聚合物任务有限。孙昭艳研究员课题组正在不断收集聚合物数据集,以进一步增强PolyNC的能力。通过扩展PolyNC学习到的自然语言提示和化学结构知识(这需要更大的计算资源),有望使各种与结构相关/无关的数据可以直接作为该模型的输入,并通过模型分析得到所需的输出。就像化学家可以根据分子结构确定简单的组成一样(图6),类似PolyNC的聚合物LLMs原型有助于以更加用户友好的方式为未来的聚合物化学机器人和自动化实验室提供新的智慧引擎。 

图6. 人工智能辅助科学研究

  以上研究发表在Chemical Science上。长春应用化学研究所博士生仇浩科为论文第一作者,刘伦洋特别研究助理和孙昭艳研究员为论文共同通讯作者。长春应用化学研究所姬相玲研究员提供了部分宝贵的数据支持,代学民副研究员和邱雪鹏研究员进行了实验合成与表征。

  论文链接:https://doi.org/10.1039/D3SC05079C



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3