2021华为杯数学建模D题解题 |
您所在的位置:网站首页 › 数学建模竞赛d题 › 2021华为杯数学建模D题解题 |
2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模
赛题1. 问题一解题:特征选择1.1. 赛题分析1.2. 解题:特征选择方法对比1.3. 模型评估
2. 问题二解题:预测模型2.1 数据分析2.2 解题
3. 问题三解题:二分类模型3.1. 数据分析3.2. 解题4. 问题四解题:优化问题4.1. 解题
赛题
问题1:根据“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的数据,需要对1974 个化合物的729 个分子描述符进行变量选择,根据变量对生物活性影响的重要性进行排序,并给出前20 个对生物活性最具有显著影响的分子描述符(即变量),并说明分子描述符筛选过程及其合理性。 问题2:通过问题1 选取的最具有显著影响的变量,选择不超过20 个分子描述符变量,构建化合物对ERα生物活性的定量预测模型。然后使用构建的预测模型,对文件“ERα_activity.xlsx”的test 表中的50 个化合物进行IC50 值和对应的pIC50 值预测,并将预测结果分别填入“ERα_activity.xlsx”的test 表中的IC50_nM 列及对应的pIC50 列。 问题3:构建5 种化合物的分类预测模型涉及包括729 个分子描述符和1974 个化合物的ADMET 数据。然后使用所构建的5 个分类预测模型,对文件“ADMET.xlsx”的test表中的50 个化合物进行相应的预测,并将结果填入“ADMET.xlsx”的test 表中相应的5种化合物所在列中。 问题4:寻找并阐述化合物的哪些分子描述符,以及求解这些分子描述符在什么取值或者处于什么取值范围时,能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET 性质(给定的五个ADMET 性质中,至少三个性质较好)。 出题人的心思: 前三问,无非是建立预测pIC50和ADMET分类模型,但是机器学习的应用从来都是作为医学、自动驾驶等领域的辅助,主流还是传感器和实验本身,所以是用来预测辅助医生来降低医生的错判率 第四问,选择对抑制pIC50具有正性影响的分子描述符,并且求能够满足ADMET三个属性的分子描述符取值范围,实际上,就是想通过这个结果去人工合成抗乳腺癌的化合物 1. 问题一解题:特征选择 1.1. 赛题分析 问题1:很多人一眼想到的就是:降维,主成分分析,因此想到的办法有: 线性映射方法: 主成分分析(PCA)因子分析 流形学习 核化线性(KPCA)降维t-SNE多维标度法(MDS)等距离映射(Isomap)局部线性嵌入(LLE)解题思路:但是降维过后的维度不在原始维度之中的情况,就具有不可解释性 这题的本质是对729个特征(分子化合物)做特征选择,选择重要性靠前的20个特征(分子化合物) 1.2. 解题:特征选择方法对比如果从特征选择的角度出发,首先就已经区别于其他对手了,下面是解题方法: GBDT特征选择模型比较互信息特征处理方法模型比较XGB特征处理模型比较基于随机森林的特征选择:![]() 将所有特征提取方法的结果,将其放到聚类的空间,观察其样本分布的多样性,多样性越好,特征选择的结果越好
![]() ![]() 分为两部: 1.求解对抑制pIC50具有正性影响的分子描述符 2.求解至少满足ADMET三个性质情况下的分子描述符的取值范围 方法1:狼群优化算法 方法2:包络提取法:类似于信号处理的信号包络,但是局限于数据本身的多样性 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |