机器学习(数据挖掘)总结

您所在的位置:网站首页 数据分析挖掘课程总结 机器学习(数据挖掘)总结

机器学习(数据挖掘)总结

2024-07-13 20:05| 来源: 网络整理| 查看: 265

一.“没有免费的午餐”(no free lunch,NFL)定理简单易懂的解释:

1、一种算法(算法A)在特定数据集上的表现优于另一种算法(算法B)的同时,一定伴随着算法A在另外某一个特定的数据集上有着不如算法B的表现;

2、具体问题(机器学习领域内问题)具体分析(具体的机器学习算法选择)。

二.模型评估方法:

1、留出法:将数据集划分为互斥的训练集和测试集。训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,从采样角度来说,保留类别比例的采样方式通常称为“分层采样”。使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。问题:测试集小时,评估结果的方差较大;训练集小时,评估结果的偏差较大。

2、交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到。每次采用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就可获得k组训练/测试集,从而可以进行k次训练和测试,最终返回的是这k个测试结果的均值。k常取10,此时称为10折交叉验证。为减小因样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的“10次10折交叉验证”。假定数据集D中包含m个样本,若令k=m,此时为交叉验证的一个特例:留一法(留一交叉验证)。问题:留出法和交叉验证法中,由于保留了一部分样本用于测试,因此实际评估的模型所使用的训练集比D小,这必然会引入一些因训练样本规模不同而导致的估计偏差;留一法中被实际评估的模型与期望评估的用D训练出的模型很相似,评估结果被认为更准确,但复杂度太高了。

3、自助法:通过自助采样(bootstrap),即有放回的采样,重复执行m次,得到数据集D',将D'作为训练集,D-D'(集合的减法)作为测试集(D中会有大约三分之一的样本未出现在D'中),这样实际评估的模型与期望评估的模型都使用了m个训练样本。问题:自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。

总结:自助法在数据量较小、难以有效划分训练/测试集时很有用;在初始数据量足够时,留出法和交叉验证法更常用一些。

三.线性回归主要是解决回归问题,而逻辑回归主要是解决分类问题。

线性回归最优化参数:梯度下降法;正规方程法

正规方程法:



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3