统计学习中的VC维是什么意思?

您所在的位置:网站首页 bmy是什么意思中文翻译 统计学习中的VC维是什么意思?

统计学习中的VC维是什么意思?

2023-06-07 12:31| 来源: 网络整理| 查看: 265

最开始是在统计学习课程上接触到这个概念的,尽管是统计机器学习中的基本概念之一,理解起来却没有那么直观。

我们先看一下VC维的定义:

VC dimension - Wikipedia

The VC dimension of a model f is the maximum number of points that can be arranged so that f shatters them. More formally, it is the maximum cardinal D such that some data point set of cardinality D can be shattered by f.

直接翻译成中文:

模型f的VC维,即空间中的点在经过排列之后,能够被模型f打散(shatter)的最大数量。更正式的表述,它是某个点集的基数,这个点集是所有能够被 f 打散的点集中基数最大的一个。

这里有两个概念,什么是经过排列怎么排列,什么叫打散。

对于打散的定义是很清楚的:

对于某个确定的点集A,如果我们对A任意的打上标签,模型 f 是可以把这些标签无错的分开的。举个例,假设 模型 f = \{ 1_{B_{R}(a)} | R > 0, a \in R^2 \} 是2维平面上所有的球,总共只有两种标签「0,1」。球内部标签为1,外部标签为0,模型由两个参数决定 R 和 a . 那么我们考虑对下面这个图

模型 f 打散不了 {A1, A2, A3, A4} ,但是打散了{A1, A2, A3}。为什么呢?

因为对于三个点A1,A2,A3 任意的「0,1」标签赋值如 A1=1, A2= ?, A3=? 一共8种情况都可以被某个平面球完美分开,读者可以自己证明。

而对四个点A1, A2, A3, A4的情况却做不到对16种赋值都能分开:例如中间的点A4为0,其余三个点赋值1,就找不到这样一个圆盘把A1,A2,A3全部包进去,但是A4在圆外。所以模型 f 不能打散 {A1, A2, A3, A4} 。

解释了打散的定义,我们马上意识到,要让模型 f 打散的点的数量最多,跟点在空间中的排列有很大关系!例如二维平面一条直线上不重合的三个点是不能被线性分类器 L(\theta, b) 打散的! ( \theta 是斜率,b是截距),但是不在一条直线上的三个点是可以被线性分类器打散的!对统计学习者来说,讨论模型能够达到的极限更加重要,因为实际生活中三个点退化成一条直线的可能性实在太小了。那么我们称,对于n个点来说,如果我们能够找到这n个点的某一种空间中的排列,使得n个点被模型 f 打散,那么模型f 的VC维就是大于等于 n 的!如果我们能证明这个n的最大值,我们就找到了模型f 的 VC维,换句话说,VC维是模型 f 打散的点集中基数最大的某个点集对应的基数。

为什么要引入 VC 维这个奇怪的概念呢,因为人们发现,模型f 虽然是无限的,但是模型能够完美区分的样本点确是有限的。的确,对于样本集合 \{ X_1, X_2, ...., X_n \}

来说,即使 预测函数 g 和 g' 的参数取值不一样,但是如果对于每一个样本点 Xi 来说 g(Xi) = g'(Xi),那么区分这两个函数的意义就是不大的。因此,考虑模型能够完美分类样本点的最大个数更加重要,当然,这里的完美指的就是模型f能否打散标签在样本上的每一种分布情况了。

我们给出 Vapnik-Chervonenkis 维度的数学定义:

模型 \mathcal G 的VC维即 V_{\mathcal G} = max \{ J \in N : \exists S \subset \mathcal X, |S| = J, S 能够被 \mathcal G 打散 \} . 注意,集合基为J是存在性,而打散概念对应的是标签分配的任意性。

如果 V_{\mathcal G} < + \infty 那么我们把模型叫做 VC类 (class of Vapnik-Chervonenkis)

考虑什么情况下 模型的VC维等于0呢。读者可以证明当且仅当模型 \mathcal G中只有一个预测函数。

=======未完待续=====



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3