机器学习（数据挖掘）总结

2024-07-13 20:05| 来源: 网络整理| 查看: 265

一.“没有免费的午餐”(no free lunch,NFL)定理简单易懂的解释:

1、一种算法（算法A）在特定数据集上的表现优于另一种算法（算法B）的同时，一定伴随着算法A在另外某一个特定的数据集上有着不如算法B的表现；

2、具体问题（机器学习领域内问题）具体分析（具体的机器学习算法选择）。

二.模型评估方法：

1、留出法：将数据集划分为互斥的训练集和测试集。训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响，从采样角度来说，保留类别比例的采样方式通常称为“分层采样”。使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。问题：测试集小时，评估结果的方差较大；训练集小时，评估结果的偏差较大。

2、交叉验证法：先将数据集D划分为k个大小相似的互斥子集，每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。每次采用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就可获得k组训练/测试集，从而可以进行k次训练和测试，最终返回的是这k个测试结果的均值。k常取10，此时称为10折交叉验证。为减小因样本划分不同而引入的差别，k折交叉验证通常要随机使用不同的划分重复p次，最终的评估结果是这p次k折交叉验证结果的均值，例如常见的“10次10折交叉验证”。假定数据集D中包含m个样本，若令k=m，此时为交叉验证的一个特例：留一法（留一交叉验证）。问题：留出法和交叉验证法中，由于保留了一部分样本用于测试，因此实际评估的模型所使用的训练集比D小，这必然会引入一些因训练样本规模不同而导致的估计偏差；留一法中被实际评估的模型与期望评估的用D训练出的模型很相似，评估结果被认为更准确，但复杂度太高了。

3、自助法：通过自助采样（bootstrap），即有放回的采样，重复执行m次，得到数据集D'，将D'作为训练集，D-D'（集合的减法）作为测试集（D中会有大约三分之一的样本未出现在D'中），这样实际评估的模型与期望评估的模型都使用了m个训练样本。问题：自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差。

总结：自助法在数据量较小、难以有效划分训练/测试集时很有用；在初始数据量足够时，留出法和交叉验证法更常用一些。

三.线性回归主要是解决回归问题，而逻辑回归主要是解决分类问题。

线性回归最优化参数：梯度下降法；正规方程法

正规方程法：

【本文地址】

机器学习（数据挖掘）总结

机器学习（数据挖掘）总结

今日新闻

推荐新闻