数学建模竞赛常考四大模型总结【预测模型、分类模型、优化模型、评价模型】

您所在的位置:网站首页 数学建模是做什么 数学建模竞赛常考四大模型总结【预测模型、分类模型、优化模型、评价模型】

数学建模竞赛常考四大模型总结【预测模型、分类模型、优化模型、评价模型】

2024-07-09 07:54| 来源: 网络整理| 查看: 265

目录 ==1. 预测模型==1.1 神经网络预测1.2 灰色预测1.3 拟合、插值预测(线性回归)1.4 时间序列预测1.5 马尔科夫链预测1.6 微分方程预测1.7 Logistic 回归(逻辑回归)1.8 线性回归总结应用场景: ==2. 分类模型==2.1 贝叶斯分类2.2 支持向量机SVM2.3 聚类分析(Hierarchical methods)2.3.1 基于划分的聚类k-means2.3.2 基于层次的聚类2.3.3 基于模型的聚类 SOM2.3.4 FCM(模糊聚类)四种聚类算法比较总结:2.3.5 spss聚类分析: 2.4 主成分分析2.5 判别分析2.6 典型相关分析(CCA)2.7 神经网络分类2.8 logistic回归2.9 决策树 ==3. 优化模型==3.1 规划模型目标规划线性规划非线性规划整数规划动态规划 3.2 神经网络模型3.3 排队论模型3.4 现代优化算法3.4.1 遗传算法3.4.2 模拟退火算法3.4.3 禁忌搜索算法3.4.4 蚁群算法 总结 ==4. 评价模型==4.1 模糊综合评价法4.2 层次分析法4.3 聚类分析法4.4 主成分分析评价法4.5 灰色关联评价法4.6 人工神经网络评价法4.7 熵权法4.8 包络分析4.9 协方差分析总结

1. 预测模型

预测和分类本质上没啥区别,都是找到一个合适的函数做预测/分类。所以能做预测的模型多半可以做分类。

1.1 神经网络预测

条件: 大量数据(题目给出大量数据时,就算题中没有要求进行数据清洗也要进行!!!主要处理异常值和缺失值,处理时候也不要单纯的进行删除,会让老师觉得你有点low) 注意:

交代清楚 input 和 output 都是什么迭代次数,学习率等超参数写清楚,最好也写清楚是怎么调整的参数神经网络有多少层 每层多少个结点 为什么选择这样设置由于神经网络没有数学模型,所以评价标准很重要。准确率,损失函数,稳定性评价指标最好都有,选择什么样的计算公式要写清楚 1.2 灰色预测

理论性不强,没法论证,能不用就不用,数据量非常少的时候可以考虑

1.3 拟合、插值预测(线性回归)

拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲面来最大限度地逼近这些点;而插值是找到一个 (或几个分片光滑的)连续曲面来穿过这些点。

1.4 时间序列预测

要求数据是等间距的,与马尔科夫模型是互补的 应用: 求解季节模型

1.5 马尔科夫链预测

序列之间前后传递比较少的,数据和数据之间随机性比较强(比如今明天的气温没有直接联系,只能从趋势判断后天温度是多少)

1.6 微分方程预测

找不到数据之间的关系,但是能找到变化量之间的关系的时候用

1.7 Logistic 回归(逻辑回归)

分析一个因变量和很多个自变量的联系 缺点: 要求变量之间的相关性需要比较小,样本的个数需要大于三倍自变量个数,容易欠拟合,一般准确度不太高,因变量Y为定类数据 在有很多因变量的时候可以用主成分分析或者聚类分析 减少自变量 应用: 最经典的是:葡萄酒规划的问题上(好多因变量共同评价葡萄酒的品质) 在逻辑回归结果很差的情况下,决策树一般会比较好解决,适合少量样本多维特征情况,完美解决欠拟合。或者可以考虑用降维方法之后再用逻辑回归。

1.8 线性回归

缺点:因变量Y(被解释变量)一定是定量数据,分类问题必须线性可分

总结 数据缺失用插值,最好不用插值做预测拟合是最简单的预测(预测也相对准确)神经网络预测最缺率最高灰色预测应用相对简单,但是学起来麻烦所以缺失就用插值,其他的就用神经网络,神经网络运算量太大的时候就用拟合 应用场景:

人口预测,水资源污染预测,病毒蔓延预测,经济发展情况预测…

2. 分类模型

参考文章:数学建模题型之分类

2.1 贝叶斯分类 2.2 支持向量机SVM

主要思想:找到一个超平面,使得它能够尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最远 **优点:**适用于高维数据;能够处理非线性特征之间的相互作用;占用内存小,泛化能力好。 **缺点:**当观测样本很多时,效率并不是很高;有时候很难找到一个合适的核函数,对参数和核函数的选择比较敏感,原始的SVM只比较擅长处理二分类问题;这里也是个二分类问题 我觉得也可以进行svm尝试

2.3 聚类分析(Hierarchical methods) 2.3.1 基于划分的聚类k-means

优点: 收敛速度快,准确度高,对数据没有假设,对outlier不敏感;可用于非线性分类; 缺点: 对K值的选取不好把握;对于不是凸的数据集比较难收敛;采用迭代方法,得到的结果只是局部最优;对噪音和异常点比较的敏感;计算量大; 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少); FCM聚类与K-means聚类的分析比较

2.3.2 基于层次的聚类

优点: 可解释性好(如当需要创建一种分类法时);还有些研究表明这些算法能产生高质量的聚类,也会应用在上面说的先取K比较大的K-means后的合并阶段;还有对于K-means不能解决的非球形族就可以解决了。 缺点: 时间复杂度高,贪心算法的缺点,一步错步步错

2.3.3 基于模型的聚类 SOM

优点: 对”类“的划分以概率形式表现,每一类的特征也可以用参数来表达。 缺点: 执行效率不高,特别是分布数量很多并且数据量很少的时候。 Matlab代码实现SOM(自组织映射)算法

2.3.4 FCM(模糊聚类)

优点: 算法对于满足正态分布的数据聚类效果会很好,另外,算法对孤立点是敏感的。 缺点: 由于不能确保FCM收敛于一个最优解,算法的性能依赖于初始聚类中心。比k-means速度慢 解决缺点的办法:

每次用不同的初始聚类中心启动该算法,多次运行FCM用另外的快速算法确定初始聚类中心 FCM算法Matlab实现 四种聚类算法比较

1.在运行时间及准确度方面综合考虑,k-means和FCM相对优于其他。 2.各个算法还是存在固定缺点:

k-means聚类算法的初始点选择不稳定,是随机选取的,这就引起聚类结果的不稳定,本实验中虽是经过多次实验取的平均值,但是具体初始点的选择方法还需进一步研究;层次聚类虽然不需要确定分类数,但是一旦一个分裂或者合并被执行,就不能修正,聚类质量受限制;FCM对初始聚类中心敏感,需要人为确定聚类数,容易陷入局部最优 解;SOM与实际大脑处理有很强的理论联系。但是处理时间较长,需要进一步研究使其适应大型数据库。 3.在这里插入图片描述 总结:

对于建模最好先用一种聚类得到中心点,然后用 FCM

2.3.5 spss聚类分析:

https://blog.csdn.net/LuYi_WeiLin/article/details/91129037

2.4 主成分分析

使用主成分分析法进行降维时要求:

数据线性相关所有变量是连续型变量尽量服从正态分布 2.5 判别分析 2.6 典型相关分析(CCA)

通常用来分析两个特征之间的关系,计算量比较大,当题目中问哪个和这个特征更相关时可以考虑。也可以用来降维,降相关性更大的作为特征输入。或者用来筛选不相关特征,以便可以适应效率更高的逻辑回归模型。

2.7 神经网络分类

主要用于图像分类

2.8 logistic回归

数据是分类变量或者连续变量中的一种,不能混用,否则结果后悔很差(进行预测的时候可以先用别的算法判断对模型有影响的指标—比如决策树,再进行训练) e.g.连续变量:评分,年龄… 分类变量:性别(类似男用0女用1代替),工作(给几类工作用0-7分别表示之类的)

2.9 决策树

优点: 计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 缺点: 容易过拟合(后续出现了随机森林,减小了过拟合现象);

3. 优化模型

参考文章:数学建模优化及算法总结

3.1 规划模型 目标规划 线性规划 非线性规划 整数规划 动态规划

用来解决多阶段决策问题,相对难一些,动态规划(DP)的原理、实现及应用 应用:如何切割地板能使损耗最低,最短路径问题

3.2 神经网络模型 3.3 排队论模型 3.4 现代优化算法 3.4.1 遗传算法 3.4.2 模拟退火算法 3.4.3 禁忌搜索算法 3.4.4 蚁群算法 总结 在假设成一种函数形式找到最优解之后,再与其他函数形式结果进行比较的时候,可以先将其他函数与心在得到的最优解进行拟合,这样可以节省从头开始优化的计算量(因为已经优化过一次了,准确的曲线应该就在这条线附近)视频跳转: 35分钟左右讲的 4. 评价模型 4.1 模糊综合评价法 4.2 层次分析法 4.3 聚类分析法 4.4 主成分分析评价法

参考链接:1、2 基本思想: 主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,通常是选出比原始 变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分。 计算步骤:

对原始数据进行标准化处理计算相关系数R计算特征值和特征向量选择 p (p


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3