统计学习中的VC维是什么意思? |
您所在的位置:网站首页 › bmy是什么意思中文翻译 › 统计学习中的VC维是什么意思? |
最开始是在统计学习课程上接触到这个概念的,尽管是统计机器学习中的基本概念之一,理解起来却没有那么直观。 我们先看一下VC维的定义: VC dimension - Wikipedia The VC dimension of a model f is the maximum number of points that can be arranged so that f shatters them. More formally, it is the maximum cardinal D such that some data point set of cardinality D can be shattered by f.直接翻译成中文: 模型f的VC维,即空间中的点在经过排列之后,能够被模型f打散(shatter)的最大数量。更正式的表述,它是某个点集的基数,这个点集是所有能够被 f 打散的点集中基数最大的一个。 这里有两个概念,什么是经过排列怎么排列,什么叫打散。 对于打散的定义是很清楚的: 对于某个确定的点集A,如果我们对A任意的打上标签,模型 f 是可以把这些标签无错的分开的。举个例,假设 模型 f = \{ 1_{B_{R}(a)} | R > 0, a \in R^2 \} 是2维平面上所有的球,总共只有两种标签「0,1」。球内部标签为1,外部标签为0,模型由两个参数决定 R 和 a . 那么我们考虑对下面这个图 模型 f 打散不了 {A1, A2, A3, A4} ,但是打散了{A1, A2, A3}。为什么呢? 因为对于三个点A1,A2,A3 任意的「0,1」标签赋值如 A1=1, A2= ?, A3=? 一共8种情况都可以被某个平面球完美分开,读者可以自己证明。 而对四个点A1, A2, A3, A4的情况却做不到对16种赋值都能分开:例如中间的点A4为0,其余三个点赋值1,就找不到这样一个圆盘把A1,A2,A3全部包进去,但是A4在圆外。所以模型 f 不能打散 {A1, A2, A3, A4} 。 解释了打散的定义,我们马上意识到,要让模型 f 打散的点的数量最多,跟点在空间中的排列有很大关系!例如二维平面一条直线上不重合的三个点是不能被线性分类器 L(\theta, b) 打散的! ( \theta 是斜率,b是截距),但是不在一条直线上的三个点是可以被线性分类器打散的!对统计学习者来说,讨论模型能够达到的极限更加重要,因为实际生活中三个点退化成一条直线的可能性实在太小了。那么我们称,对于n个点来说,如果我们能够找到这n个点的某一种空间中的排列,使得n个点被模型 f 打散,那么模型f 的VC维就是大于等于 n 的!如果我们能证明这个n的最大值,我们就找到了模型f 的 VC维,换句话说,VC维是模型 f 打散的点集中基数最大的某个点集对应的基数。 为什么要引入 VC 维这个奇怪的概念呢,因为人们发现,模型f 虽然是无限的,但是模型能够完美区分的样本点确是有限的。的确,对于样本集合 \{ X_1, X_2, ...., X_n \} 来说,即使 预测函数 g 和 g' 的参数取值不一样,但是如果对于每一个样本点 Xi 来说 g(Xi) = g'(Xi),那么区分这两个函数的意义就是不大的。因此,考虑模型能够完美分类样本点的最大个数更加重要,当然,这里的完美指的就是模型f能否打散标签在样本上的每一种分布情况了。 我们给出 Vapnik-Chervonenkis 维度的数学定义: 模型 \mathcal G 的VC维即 V_{\mathcal G} = max \{ J \in N : \exists S \subset \mathcal X, |S| = J, S 能够被 \mathcal G 打散 \} . 注意,集合基为J是存在性,而打散概念对应的是标签分配的任意性。 如果 V_{\mathcal G} < + \infty 那么我们把模型叫做 VC类 (class of Vapnik-Chervonenkis) 考虑什么情况下 模型的VC维等于0呢。读者可以证明当且仅当模型 \mathcal G中只有一个预测函数。 =======未完待续===== |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |