训练用于一类和二类分类的支持向量机 (SVM) 分类器

您所在的位置:网站首页 cachesize是什么意思 训练用于一类和二类分类的支持向量机 (SVM) 分类器

训练用于一类和二类分类的支持向量机 (SVM) 分类器

2023-03-20 15:17| 来源: 网络整理| 查看: 265

SVM 二类分类算法搜索将数据分成两类的最优超平面。对于可分离类,最优超平面会最大化自身周围的边距(不包含任何观测值的空间),从而在正类和负类间创建边界。对于不可分离的类,目标是相同的,但是,如果有观测值位于其类边界的错误一侧,则算法会相应地对边距长度施加罚分。

线性 SVM 分数函数是

f(x)=x′β+b,

其中:

x 是观测值(对应于 X 的一行)。

向量 β 包含定义超平面的正交向量的系数(对应于 Mdl.Beta)。对于可分离的数据,最佳边距长度是 2/‖β‖.

b 是偏差项(对应于 Mdl.Bias)。

特定系数的 f(x) 的根定义超平面。对于特定的超平面,f(z) 是从 z 点到超平面的距离。

算法搜索最大边距长度,同时将观测值分为正类 (y = 1) 和负类 (y = –1)。

对于可分离的类,目标是最小化关于 β 和 b 的 ‖β‖,并且对于所有 j = 1、...、n,满足 yjf(xj) ≥ 1。这是针对可分离类的原问题形式。

对于不可分离的类,算法会在遇到跨越类边界的观测值时使用松弛变量 (ξj) 对目标函数进行罚分。对于未跨越类边界的观测值,ξj = 0,否则 ξj ≥ 0。

目标是最小化关于 β、b 和 ξj 的 0.5‖β‖2+C∑ξj,对于所有 j = 1,..,n 和正标量框约束 C,满足 yjf(xj)≥1−ξj 和 ξj≥0。这是针对不可分离类的原问题形式。

算法采用 Lagrange 乘数方法优化目标,引入 n 个系数 α1,...,αn(对应于 Mdl.Alpha)。线性 SVM 的对偶问题形式如下:

对于可分离的类,最小化关于 α1,...,αn 的

0.5∑j=1n∑k=1nαjαkyjykxj′xk−∑j=1nαj

,对于所有 j = 1,...,n,满足 ∑αjyj=0,αj ≥ 0,且满足 Karush-Kuhn-Tucker (KKT) 互补条件。

对于不可分离的类,目标与可分离的类相同,不同之处是所有 j = 1、...、n 需满足附加条件 0≤αj≤C。

得到的分数函数是

f^(x)=∑j=1nα^jyjx′xj+b^.

b^ 是偏差的估计值,α^j 是向量 α^ 的第 j 个估计值,j = 1,...,n。写为这种形式时,score 函数不再需要原问题形式中的 β 估计值。

SVM 算法使用 sign(f^(z)). 对新观测值 z 进行分类

在某些情况下,非线性边界对类进行分隔。非线性 SVM 在经过变换的预测变量空间中计算以找到最佳的分离超平面。

非线性 SVM 的对偶问题可表示为关于 α1、...、αn 的以下形式

0.5∑j=1n∑k=1nαjαkyjykG(xj,xk)−∑j=1nαj

对于所有 j = 1、..、n,满足 ∑αjyj=0,0≤αj≤C,且满足 KKT 互补条件。G(xk,xj) 是 Gram 矩阵的元素。得到的分数函数是

f^(x)=∑j=1nα^jyjG(x,xj)+b^.

有关详细信息,请参阅了解支持向量机、[1] 和 [3]。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3