KNN算法常见问题总结

您所在的位置：网站首页 › 数据量庞大采用何种共识算法的原因 › KNN算法常见问题总结

KNN算法常见问题总结

2024-07-17 15:35| 来源: 网络整理| 查看: 265

1 k近邻法（k-nearest neighbor, kNN）给定测试实例，基于某种距离度量找出训练集中与其最靠近的k个实例点，然后基于这k个最近邻的信息来进行预测。

通常，在分类任务中可使用“投票法”，即选择这k个实例中出现最多的标记类别作为预测结果；在回归任务中可使用“平均法”，即将这k个实例的实值输出标记的平均值作为预测结果；还可基于距离远近进行加权平均或加权投票，距离越近的实例权重越大。

k近邻法不具有显式的学习过程，事实上，它是懒惰学习（lazy learning）的著名代表，此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理。

2 距离度量 KNN一般采用欧氏距离，也可采用其他距离度量，一般的Lp距离：

3 K值得选择 KNN中的K值选取对K近邻算法的结果会产生重大影响。如果选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差（近似误差：可以理解为对现有训练集的训练误差）会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；

如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。

在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法来选择最优的K值。经验规则：k一般低于训练样本数的平方根

4 KNN的决策过程 1、计算测试对象到训练集中每个对象的距离

2、按照距离的远近排序

3、选取与当前测试对象最近的k的训练对象，作为该测试对象的邻居

4、统计这k个邻居的类别频率

5、k个邻居里频率最高的类别，即为测试对象的类别

5 KNN如何优化数据量很大时，暴力计算困难的问题输入X可以采用BallTree或KDTree两种数据结构，优化计算效率，可以在实例化KNeighborsClassifier的时候指定。

KDTree

基本思想是，若A点距离B点非常远，B点距离C点非常近，可知A点与C点很遥远，不需要明确计算它们的距离。通过这样的方式，近邻搜索的计算成本可以降低为O[DNlog(N)]或更低。这是对于暴力搜索在大样本数N中表现的显著改善。KD 树的构造非常快，对于低维度 (D

【本文地址】

KNN算法常见问题总结

KNN算法常见问题总结

今日新闻

推荐新闻