2021华为杯数学建模D题解题

您所在的位置:网站首页 数学建模竞赛d题 2021华为杯数学建模D题解题

2021华为杯数学建模D题解题

2023-09-26 14:57| 来源: 网络整理| 查看: 265

2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模 赛题1. 问题一解题:特征选择1.1. 赛题分析1.2. 解题:特征选择方法对比1.3. 模型评估 2. 问题二解题:预测模型2.1 数据分析2.2 解题 3. 问题三解题:二分类模型3.1. 数据分析3.2. 解题4. 问题四解题:优化问题4.1. 解题

赛题

问题1:根据“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的数据,需要对1974 个化合物的729 个分子描述符进行变量选择,根据变量对生物活性影响的重要性进行排序,并给出前20 个对生物活性最具有显著影响的分子描述符(即变量),并说明分子描述符筛选过程及其合理性。

问题2:通过问题1 选取的最具有显著影响的变量,选择不超过20 个分子描述符变量,构建化合物对ERα生物活性的定量预测模型。然后使用构建的预测模型,对文件“ERα_activity.xlsx”的test 表中的50 个化合物进行IC50 值和对应的pIC50 值预测,并将预测结果分别填入“ERα_activity.xlsx”的test 表中的IC50_nM 列及对应的pIC50 列。

问题3:构建5 种化合物的分类预测模型涉及包括729 个分子描述符和1974 个化合物的ADMET 数据。然后使用所构建的5 个分类预测模型,对文件“ADMET.xlsx”的test表中的50 个化合物进行相应的预测,并将结果填入“ADMET.xlsx”的test 表中相应的5种化合物所在列中。

问题4:寻找并阐述化合物的哪些分子描述符,以及求解这些分子描述符在什么取值或者处于什么取值范围时,能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET 性质(给定的五个ADMET 性质中,至少三个性质较好)。

出题人的心思:

前三问,无非是建立预测pIC50和ADMET分类模型,但是机器学习的应用从来都是作为医学、自动驾驶等领域的辅助,主流还是传感器和实验本身,所以是用来预测辅助医生来降低医生的错判率

第四问,选择对抑制pIC50具有正性影响的分子描述符,并且求能够满足ADMET三个属性的分子描述符取值范围,实际上,就是想通过这个结果去人工合成抗乳腺癌的化合物

1. 问题一解题:特征选择 1.1. 赛题分析 问题1:很多人一眼想到的就是:降维,主成分分析,因此想到的办法有: 线性映射方法: 主成分分析(PCA)因子分析 流形学习 核化线性(KPCA)降维t-SNE多维标度法(MDS)等距离映射(Isomap)局部线性嵌入(LLE)

解题思路:但是降维过后的维度不在原始维度之中的情况,就具有不可解释性 这题的本质是对729个特征(分子化合物)做特征选择,选择重要性靠前的20个特征(分子化合物)

1.2. 解题:特征选择方法对比

如果从特征选择的角度出发,首先就已经区别于其他对手了,下面是解题方法:

GBDT特征选择模型比较互信息特征处理方法模型比较XGB特征处理模型比较基于随机森林的特征选择:

在这里插入图片描述

基于相关性系数 在这里插入图片描述 1.3. 模型评估

将所有特征提取方法的结果,将其放到聚类的空间,观察其样本分布的多样性,多样性越好,特征选择的结果越好 在这里插入图片描述

2. 问题二解题:预测模型 2.1 数据分析

在这里插入图片描述 数据是不满足正太分布的,所以线性模型的效果会差,之后也用逻辑回归尝试过,RS指标只有0.5

2.2 解题 多层感知机,BP神经网络SVM:支持向量机RF:随机森林XGBoost RS指标能达到0.77左右 3. 问题三解题:二分类模型 3.1. 数据分析

在这里插入图片描述 CYP3A4、HOB、MN数据存在正负样本不均衡

3.2. 解题 XGBoostFocal Loss替换二元交叉熵损失 在这里插入图片描述LightGBML1正则化 在这里插入图片描述 4. 问题四解题:优化问题 4.1. 解题

分为两部:

1.求解对抑制pIC50具有正性影响的分子描述符 在这里插入图片描述 在这里插入图片描述

2.求解至少满足ADMET三个性质情况下的分子描述符的取值范围

方法1:狼群优化算法

方法2:包络提取法:类似于信号处理的信号包络,但是局限于数据本身的多样性

在这里插入图片描述



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3