统计学习中的VC维是什么意思？

您所在的位置：网站首页 › bmy是什么意思中文翻译 › 统计学习中的VC维是什么意思？

统计学习中的VC维是什么意思？

2023-06-07 12:31| 来源: 网络整理| 查看: 265

最开始是在统计学习课程上接触到这个概念的，尽管是统计机器学习中的基本概念之一，理解起来却没有那么直观。

我们先看一下VC维的定义：

VC dimension - Wikipedia

The VC dimension of a model f is the maximum number of points that can be arranged so that f shatters them. More formally, it is the maximum cardinal D such that some data point set of cardinality D can be shattered by f.

直接翻译成中文：

模型f的VC维，即空间中的点在经过排列之后，能够被模型f打散(shatter)的最大数量。更正式的表述，它是某个点集的基数，这个点集是所有能够被 f 打散的点集中基数最大的一个。

这里有两个概念，什么是经过排列怎么排列，什么叫打散。

对于打散的定义是很清楚的：

对于某个确定的点集A，如果我们对A任意的打上标签，模型 f 是可以把这些标签无错的分开的。举个例，假设模型 f = \{ 1_{B_{R}(a)} | R > 0, a \in R^2 \} 是2维平面上所有的球，总共只有两种标签「0，1」。球内部标签为1，外部标签为0，模型由两个参数决定 R 和 a . 那么我们考虑对下面这个图

模型 f 打散不了 {A1, A2, A3, A4} ，但是打散了{A1, A2, A3}。为什么呢？

因为对于三个点A1，A2，A3 任意的「0，1」标签赋值如 A1=1, A2= ?, A3=? 一共8种情况都可以被某个平面球完美分开，读者可以自己证明。

而对四个点A1, A2, A3, A4的情况却做不到对16种赋值都能分开：例如中间的点A4为0，其余三个点赋值1，就找不到这样一个圆盘把A1，A2，A3全部包进去，但是A4在圆外。所以模型 f 不能打散 {A1, A2, A3, A4} 。

解释了打散的定义，我们马上意识到，要让模型 f 打散的点的数量最多，跟点在空间中的排列有很大关系！例如二维平面一条直线上不重合的三个点是不能被线性分类器 L(\theta, b) 打散的！ ( \theta 是斜率，b是截距)，但是不在一条直线上的三个点是可以被线性分类器打散的！对统计学习者来说，讨论模型能够达到的极限更加重要，因为实际生活中三个点退化成一条直线的可能性实在太小了。那么我们称，对于n个点来说，如果我们能够找到这n个点的某一种空间中的排列，使得n个点被模型 f 打散，那么模型f 的VC维就是大于等于 n 的！如果我们能证明这个n的最大值，我们就找到了模型f 的 VC维，换句话说，VC维是模型 f 打散的点集中基数最大的某个点集对应的基数。

为什么要引入 VC 维这个奇怪的概念呢，因为人们发现，模型f 虽然是无限的，但是模型能够完美区分的样本点确是有限的。的确，对于样本集合 \{ X_1, X_2, ...., X_n \}

来说，即使预测函数 g 和 g' 的参数取值不一样，但是如果对于每一个样本点 Xi 来说 g(Xi) = g'(Xi)，那么区分这两个函数的意义就是不大的。因此，考虑模型能够完美分类样本点的最大个数更加重要，当然，这里的完美指的就是模型f能否打散标签在样本上的每一种分布情况了。

我们给出 Vapnik-Chervonenkis 维度的数学定义：

模型 \mathcal G 的VC维即 V_{\mathcal G} = max \{ J \in N : \exists S \subset \mathcal X, |S| = J, S 能够被 \mathcal G 打散 \} . 注意，集合基为J是存在性，而打散概念对应的是标签分配的任意性。

如果 V_{\mathcal G} < + \infty 那么我们把模型叫做 VC类 (class of Vapnik-Chervonenkis)

考虑什么情况下模型的VC维等于0呢。读者可以证明当且仅当模型 \mathcal G中只有一个预测函数。

=======未完待续=====

【本文地址】

统计学习中的VC维是什么意思？

统计学习中的VC维是什么意思？

今日新闻

推荐新闻