2021华为杯研赛选题建议与思路

您所在的位置：网站首页 › 2021华为杯数模 › 2021华为杯研赛选题建议与思路

2021华为杯研赛选题建议与思路

2024-01-28 21:39| 来源: 网络整理| 查看: 265

给大家的选题建议：

A题相关矩阵组的低复杂度计算和存储建模

这道题目需要充分挖掘矩阵间关联性，以实现低复杂度的计算和存储，需要有相当的数学功底，存在最优解，推荐数学等相关专业，或者对其有强烈兴趣的同学选择。

B题空气质量预报二次建模

这道题目相对而言难度适中，典型的数据挖掘类题目，建议计算机等相关专业同学选择，其中可以用一些机器学习、深度学习算法进行建模。要注意可视化很重要。

C题帕金森病的脑深部电刺激治疗建模研究

此题尤其建议计算机专业研究脑认知方向的同学选择，其他方向和专业不推荐此题，可能需要补的知识很多。

D题抗乳腺癌候选药物的优化建模（推荐）

这道题是数据挖掘、数据分析类题目，可以利用xgboost、adaboost等集成算法，也可以利用改进的协同过滤、神经网络、svm等算法进行建模与求解。在选择变量时，可以采用PCA等方法进行选择。

E题信号干扰下的超宽带（UWB）精确定位问题

这道题需要比较强的知识储备，信号处理、数据挖掘、3D建模等均有所涉猎，既有预测、又有分类，这些任务都可以利用一些机器学习、深度学习算法进行建模与求解。

F题航空公司机组优化排班问题

好像之前也有过类似题目，关于航班的。这类题没有专业限制，大家只要有思路都可以选择。

B题思路空气质量预报二次建模

大气污染系指由于人类活动或自然过程引起某些物质进入大气中，呈现足够的浓度，达到了足够的时间，并因此危害了人体的舒适、健康和福利或危害了生态环境。污染防治实践表明，建立空气质量预报模型，提前获知可能发生的大气污染过程并采取相应控制措施，是减少大气污染对人体健康和环境等造成的危害，提高环境空气质量的有效方法之一。

请你们团队根据问题要求，基于一次预报数据及实测数据（见附件）进行空气质量预报二次数学建模，完成以下四个问题。请注意，实际工作中会遇到数据为空值或异常值的情况（见附录），故要求建立的模型具有一定的鲁棒性。

问题1：使用附件1中的数据，按照附录中的方法计算监测点A从2020年8月25日到8月28日每天实测的AQI和首要污染物，将结果按照附录“AQI计算结果表”的格式放在正文中。

针对问题1: 并没有什么难度，根据给出的方法，采用合理的方式进行相应的计算即可，需要注意的是，缺失值的填充方式，可能会影响最终的计算结果。而缺失值的填充方式有很多种。但是针对这种具有时序型的监测数据，缺失值受到前面时刻和后面时刻的影响较大，缺失值可使用前后时刻的均值、前面时刻的值、前后几个时刻的均值等方式。（针对提示的数据异常情形，除了缺失值之外，还应注意偶然因素的影响）建议使用时序折线图等可视化方式，对数据进行全局和局部的观察。

缺失值填充方法：利用前面的填充、利用前面和后面的均值填充、利用均值（中位数）填充、考虑多个变量影响关系的填充方式，如KNN等。

数据可视化方法：折线图、箱线图等

问题2：在污染物排放情况不变的条件下，某一地区的气象条件有利于污染物扩散或沉降时，该地区的AQI会下降，反之会上升。使用附件1中的数据，根据对污染物浓度的影响程度，对气象条件进行合理分类，并阐述各类气象条件的特征。

针对问题2 合理分类：由于这并没有固定的说有几类，所以应该根据数据的分布情况进行分析，直观的方式就是聚类分析（可使用的聚类算法有很多种），根据数据的聚集情况进行分类，然后阐述每类数据的气象条件特征（这个特征的最简单表示可以使用簇的中心），以及这些气象特征对污染物扩散或者沉降的影响，进而对AQI的影响。

聚类方法：K均值聚类、K中值聚类、密度聚类、系统聚类等。聚类结果可视化可借助TSNE等方式进行降维可视化、轮廓系数图等。

问题3：使用附件1、2中的数据，建立一个同时适用于A、B、C三个监测点（监测点两两间直线距离>100km，忽略相互影响）的二次预报数学模型，用来预测未来三天6种常规污染物单日浓度值，要求二次预报模型预测结果中AQI预报值的最大相对误差应尽量小，且首要污染物预测准确度尽量高。并使用该模型预测监测点A、B、C在2021年7月13日至7月15日6种常规污染物的单日浓度值，计算相应的AQI和首要污染物，将结果依照附录“污染物浓度及AQI预测结果表”的格式放在论文中。

针对问题3：使用3个地点的数据集，建立二次预报数学模型，该模型具体使用什么方法，可以有很多种。如何评价预测效果的好坏，通过AQI的相对误差和首要污染物预测准确度（这两个指标都可以使用给定的数据计算出来，所以可以认为模型的监测目标有两个，而且这两个又有一定的关系。）针对AQI的取值可以看着是一个回归类型的模型，针对首要污染物预测准确度可以看作是一个分类问题，而且两种损失函数也可以融合为一个。鉴于该数据又有一定的时序性，所以建模时也不能忽略时序的印象，例如：可以使用多个、多种模型融合的组合式建模方法，与时序LSTM等相关的深度学习算法。

机器学习算法：支持向量机、神经网路、随机森林、多元线性回归、Ridge回归、ARIMA、ARIMAX、Prophet、LSTM、RNN等。

问题4：相邻区域的污染物浓度往往具有一定的相关性，区域协同预报可能会提升空气质量预报的准确度。如图 4，监测点A的临近区域内存在监测点A1、A2、A3，使用附件1、3中的数据，建立包含A、A1、A2、A3四个监测点的协同预报模型，要求二次模型预测结果中AQI预报值的最大相对误差应尽量小，且首要污染物预测准确度尽量高。使用该模型预测监测点A、A1、A2、A3在2021年7月13日至7月15日6种常规污染物的单日浓度值，计算相应的AQI和首要污染物，将结果依照附录“污染物浓度及AQI预测结果表”的格式放在论文中。并讨论：与问题3的模型相比，协同预报模型能否提升针对监测点A的污染物浓度预报准确度？说明原因。

针对问题4：相对于问题3，该问题需要更近一步的考虑方位和距离对空气质量的影响。评价的指标和问题3相同，因此可以在问题3的建模结果的基础上进行相应的考虑，例如：添加新的特征。或者根据风向等气象指标考虑污染物的流动等因素。

D抗乳腺癌候选药物的优化建模

这道题是一道分类问题，解决的方法基本都是机器学习(含深度学习、强化学习)的方法，（对于编程能力较弱的小白不太友好）

第一问：ERα_activity中一般采用pIC50来表示生物活性值，看这一列就好，Molecular_Descriptor有729个指标，给出关联程度前Top20，数据都是实验数据，数据要不要标准化处理，如果要处理那么后文都得用这个标准化处理后的数据，要么就不处理，标准化处理后会改变算法的结果，算各指标的关联性直接加个循环依次求每个指标与pIC50的相关性即可，SMILES都是单独的一个实验，就认为数据是真实检测的，不需要进行异常样本剔除，第一问求相关性看着简单，真正的挑战还在后面，第一问的结果设计到后文的机器学习算法，算法对数据集的质量要求挺高的，因此你们在做第一问的时候可以拟几种算法结果，具体写什么看后文算法的效果，想关性算法有：灰色关联、皮尔逊、秩相关、肯德尔、余弦、典型相关分析、Elasticsearch相关性…（第一问相关性方法很多，每种选出来的都不一样，但是后面问很和第一问结果有关）

第二问：采用第一问中的Top20的指标构建pIC50的关系模型（第一问题目说了取top20，后面问没说你们就可以取top10），不用想肯定是非线性，预测模型可以是神经网络、决策树系列拿不到关系式的算法模型，也可以是回归系列能求出关系式的模型，第一种做法不用多说，算法内置函数本身就是非线性，最后绘制一些误差、性能检验图即可，第二种回归的非线性做法简单讲下，虽然我们看回归算法都是线性拟合的，但是可以添加非线性变量，例如x=[X(:,1:15),X(:,1:15).2,X(:,1:15).3,X(:,1:15).4,X(:,1:15).5,exp(X(:,1:15))];构建一个非线性自变量集，然后直接带入算法求参数，说到拟合还不得不提及1stopt神器，但仅支持最多二元拟合，可以分别找出20个指标和pIC50最合适的经验公式，然后合成一个大的关系式，对其中参数进行拟合，使用机器学习算法一步到位，这确实很方便，给你们多几种参考，自行选择，算法训练或得出关系式后，带入Molecular_Descriptor中test数据集求出IC50_nM列及对应的pIC50列，题目也说了IC50_nM和pIC50是可以换算的，本文只针对其中一个用于算法模型即可，之后再用1stopt或者拟合算法确定IC50_nM和pIC50的换算公式就行第三问，记住是五个分类预测模型，不是说ADMET中的Caco-2、CYP3A4、hERG、HOB、MN作为一个训练输出，而是分开来做，Caco-2、CYP3A4、hERG、HOB、MN只有0，1两个值，那就是二分类问题，同样的最好先进行指标的选取，并且这类数据离散度很强，（会有小伙伴说，二分类问题用随机森林、svm、prnn神经网络等算法直接搞，算法是没问题额，但任何一种机器学习算法的实现效果很依赖数据集）

第三问：不得不先对数据集进行处理，记住第三问是分别对Caco-2、CYP3A4、hERG、HOB、MN进行研究，不是说数据处理了一次就好了，每种输出它的相关指标不一样，五种输出选区的指标应当是不相同的，其实这个问很好办，各位可以参考下协同过滤推荐的方式，根据近邻用户的数据去计算，那么这个问，test中有50个实验，对应的是Molecular_Descriptor中的test，那么就先找一下test50个实验与training中前k个近邻实验，从而构建出训练集，这样构建出的训练集，交叉数据肯定会少很多，然后再同第一问方式取前m个指标，接下来就是带算法进去训练然后预测，除了本段已说到的方法，可以考虑一些前沿的算法去做，例如Xgboost、受限玻尔兹曼机(RBM)（DBN神经网络中的核心）、多层感知MLP、自组织映射SOM、生成式对抗网络GAN、循环神经网络RNN、GRNN、PRNN等，最后结果记得填入ADMET.xlsx中的test。

第四问：先找出ADMET中有三个1的实验，然后就第一问选出的指标，通过第二问方式重新求得一个关系模型，其实从这里来看，第二问用可以得出关系是的算法模型，就能和本问紧密联系起来了，得到新的关系模型后，接下来就是套用优化算法寻优了，以pIC50值为目标函数，最大化寻优，或者对IC50最小化寻优。

【本文地址】

2021华为杯研赛选题建议与思路

2021华为杯研赛选题建议与思路

今日新闻

推荐新闻