机器算法验证

2023-03-19 19:12| 来源: 网络整理| 查看: 265

解决类不平衡问题的一种流行方法是使分类器产生偏差，使其更加关注正例。例如，这可以通过增加与将正类相对于负类进行错误分类相关的惩罚来完成。另一种方法是通过对多数类进行过采样或对少数类进行欠采样来预处理数据，以创建平衡的数据集。

但是，就您而言，类不平衡似乎不是问题。也许这是一个参数调整的问题，因为为 SVM 分类器找到最佳参数可能是一个相当乏味的过程。例如，在 RBF 内核中有两个参数：和。事先不知道哪个和最适合给定问题；因此，必须进行某种模型选择（参数搜索）。CCγγCCγγ

在数据预处理阶段，请记住 SVM 要求每个数据实例都表示为实数向量。因此，如果存在分类属性，建议将它们转换为数值数据，使用 m 个数字表示一个 m 类属性（或将其替换为 m 个新的二进制变量）。

此外，在应用 SVM 之前缩放变量至关重要，以避免较大数值范围内的属性支配较小数值范围内的属性。

看看这篇论文。

如果您在 R 中工作，请查看调整函数（包 e1071）以使用对提供的参数范围进行网格搜索来调整超参数。然后，使用 plot.tune，您可以直观地看到哪个值集的错误率较小。

围绕耗时的参数搜索有一个捷径。有一个名为“svmpath”的 R 包，它一次性计算 2 类 SVM 分类器的整个正则化路径。这是该论文的链接，该链接描述了它在做什么。

PS您可能还会发现这篇论文很有趣：获取校准的概率估计

【本文地址】

今日新闻