《统计学习方法》啃书手册|第7章 核函数构成希尔伯特空间的步骤详解(教材全解 + 公式推导 + Python实现)

您所在的位置:网站首页 高斯核函数公式怎么推导 《统计学习方法》啃书手册|第7章 核函数构成希尔伯特空间的步骤详解(教材全解 + 公式推导 + Python实现)

《统计学习方法》啃书手册|第7章 核函数构成希尔伯特空间的步骤详解(教材全解 + 公式推导 + Python实现)

2024-06-01 03:13| 来源: 网络整理| 查看: 265

位置:《统计学习方法》啃书手册 > 第7章 支持向量机 > 核函数构成希尔伯特空间的步骤详解

根据假设,我们已知 K ( x , z ) K(x,z) K(x,z) 是定义在 X × X X×X X×X 上的对称函数,并且对任意的 x 1 , x 2 , ⋯   , x m ∈ X x_1,x_2,\cdots,x_m \in X x1​,x2​,⋯,xm​∈X, K ( x , z ) K(x,z) K(x,z) 关于 x 1 , x 2 , ⋯   , x m x_1,x_2,\cdots,x_m x1​,x2​,⋯,xm​​ 的 Gram 矩阵是半正定的。

1. 定义映射,构成向量空间 S

先定义映射

ϕ : x → K ( ⋅ , x ) (1) \phi : x \rightarrow K(·,x) \tag{1} ϕ:x→K(⋅,x)(1)

根据核函数的定义可知,核函数定义为 K ( x , z ) = ϕ ( x ) ⋅ ϕ ( z ) K(x,z) = \phi(x)·\phi(z) K(x,z)=ϕ(x)⋅ϕ(z),从输入空间到特征空间的映射函数可以显式地表达为 ϕ : x → ϕ ( x ) \phi : x \rightarrow \phi(x) ϕ:x→ϕ(x)。但是在核技巧下,我们并不需要显式地定义映射函数,因此采用上式(1)隐式地定义映射函数。

为方便理解,也可以将上式不严谨地理解为:只代入了一个参数 ϕ ( x ) \phi(x) ϕ(x) 的核函数,而 ⋅ · ⋅ 表示尚未代入的另一个参数。

根据这一映射,对任意 x i ∈ X x_i \in X xi​∈X, α i ∈ R \alpha_i \in R αi​∈R, i = 1 , 2 , ⋯   , m i=1,2,\cdots,m i=1,2,⋯,m,定义线性组合

f ( ⋅ ) = ∑ i = 1 m α i K ( ⋅ , x i ) (2) f(·)=\sum_{i=1}^m \alpha_i K(·,x_i) \tag{2} f(⋅)=i=1∑m​αi​K(⋅,xi​)(2)

于是,上式(2)就是对只代入一个参数 ϕ ( x ) \phi(x) ϕ(x) 的核函数的线性变换结果(加法运算和数乘运算)。

为方便理解,也可以将上式不严谨地理解为:只代入了一个参数 ϕ ( ∑ i = 1 M α i x i ) \phi(\sum_{i=1}^M \alpha_i x_i) ϕ(∑i=1M​αi​xi​) 的核函数。

之所以要定义这个线性组合,是因为因为向量空间是带有加法和标量乘法的集合。通过线性组合的方式令包含的元素对加法和数乘运算封闭,从而使 S S S 成为向量空间。

考虑由线性组合为元素的集合 S。由于集合 S 对加法和数乘运算是封闭的,所以 S 构成一个向量空间。

2. 在 S 上定义内积,使其成为内积空间

在 S 上定义一个运算*;对任意 f , g ∈ S f,g \in S f,g∈S,

f ( ⋅ ) = ∑ i = 1 m α i K ( ⋅ , x i ) (3) f(·)=\sum_{i=1}^m \alpha_i K(·,x_i) \tag{3} f(⋅)=i=1∑m​αi​K(⋅,xi​)(3)

g ( ⋅ ) = ∑ j = 1 l β j K ( ⋅ , z j ) (4) g(·)=\sum_{j=1}^l \beta_j K(·,z_j) \tag{4} g(⋅)=j=1∑l​βj​K(⋅,zj​)(4)

同样地, f ( ⋅ ) f(·) f(⋅) 和 g ( ⋅ ) g(·) g(⋅) 也可以分别理解为各代入了一个参数的核函数的线性变换结果;同时也可以理解为只代入了一个参数 ϕ ( ∑ i = 1 M α i x i ) \phi(\sum_{i=1}^M \alpha_i x_i) ϕ(∑i=1M​αi​xi​) 的核函数和只代入了一个参数 ϕ ( ∑ j = 1 M β i z j ) \phi(\sum_{j=1}^M \beta_i z_j) ϕ(∑j=1M​βi​zj​) 的核函数。其中 ⋅ · ⋅ 表示另一个尚未被代入的参数,这个参数应该是也是一个带入了一个参数的核函数或它的线性变换结果。

定义运算 ∗ * ∗

f ∗ g = ∑ i = 1 m ∑ j = 1 l α i β i K ( x i , z j ) (5) f * g = \sum_{i=1}^m \sum_{j=1}^l \alpha_i \beta_i K(x_i,z_j) \tag{5} f∗g=i=1∑m​j=1∑l​αi​βi​K(xi​,zj​)(5)

证明运算*是空间 S S S 的内积。为此要证:

$$ \begin{align}

\hspace{1em} & (cf) * g = c (f*g),c\in R \tag{6} \\hspace{1em} & (f+g)h = fh + g*h,h \in S \tag{7} \\hspace{1em} & fg = gf \tag{8} \\hspace{1em} & ff \ge 0, \tag{9} \ & ff=0 \Leftrightarrow f=0 \tag{10} \end{align} $$

以上四个条件即内积的四个运算性质,若运算 ∗ * ∗ 能够满足内积的所有运算性质,则可以认为运算 ∗ * ∗ 是空间 S S S 的内积。

f = 0 f=0 f=0 的含义是:当 f = 0 f=0 f=0 时,对任意的 x x x 都有 f ( ⋅ ) = ∑ i = 1 m α i K ( ⋅ , x i ) = 0 f(·)=\sum_{i=1}^m \alpha_i K(·,x_i)=0 f(⋅)=∑i=1m​αi​K(⋅,xi​)=0。

f ∗ f = 0 f*f=0 f∗f=0 的含义是:当 f ∗ f = 0 f*f=0 f∗f=0 时,对任意的 x x x 都有 f ∗ f = ∑ i , j = 1 m α i α j K ( x i , x j ) = 0 f*f = \sum_{i,j=1}^m \alpha_i \alpha_j K(x_i,x_j) = 0 f∗f=∑i,j=1m​αi​αj​K(xi​,xj​)=0。

其中,(6)~(8)由式(2)-式(4)及 K ( x , z ) K(x,z) K(x,z) 的对称性容易得到。

(6)和(7)的证明直接将 c ∈ R c \in R c∈R、 h ∈ S h \in S h∈S 代入到式(2)及式(5)中即可;(8)的证明使用 K ( x , z ) K(x,z) K(x,z) 是对称函数的性质即可。

现证(9)。由式(2)及式(5)可得:

f ∗ f = ∑ i , j = 1 m α i α j K ( x i , x j ) (11) f * f = \sum_{i,j=1}^m \alpha_i \alpha_j K(x_i,x_j) \tag{11} f∗f=i,j=1∑m​αi​αj​K(xi​,xj​)(11)

由 Gram 矩阵的半正定性知上式右端非负,即 f ∗ f ≥ 0 f * f \ge 0 f∗f≥0。

根据假设, K ( x , z ) K(x,z) K(x,z) 关于 x 1 , x 2 , ⋯   , x m x_1,x_2,\cdots,x_m x1​,x2​,⋯,xm​ 的 Gram 矩阵,即 [ K ( x i , x j ) ] m × m \begin{bmatrix}K(x_i,x_j)\end{bmatrix}_{m×m} [K(xi​,xj​)​]m×m​,是半正定矩阵,于是有 x T ( [ K ( x i , x j ) ] m × m ) x ≥ 0 x^T (\begin{bmatrix}K(x_i,x_j)\end{bmatrix}_{m×m}) x \ge 0 xT([K(xi​,xj​)​]m×m​)x≥0。

令 x = [ α 1 α 2 ⋯ α m ] T x = \begin{bmatrix} \alpha_1 & \alpha_2 & \cdots & \alpha_m \end{bmatrix}^T x=[α1​​α2​​⋯​αm​​]T,则有

$$ \begin{bmatrix} \alpha_1 & \alpha_2 & \cdots & \alpha_m \end{bmatrix}

\begin{bmatrix} K(x_1,x_1) & K(x_1,x_2) & \cdots & K(x_1,x_m) \ K(x_2,x_1) & K(x_2,x_2) & \cdots & K(x_2,x_m) \ \vdots & \vdots & \ddots & \vdots \ K(x_m,x_1) & K(x_m,x_2) & \cdots & K(x_m,x_m) \end{bmatrix}

\begin{bmatrix} \alpha_1 \ \alpha_2 \ \vdots \ \alpha_m \end{bmatrix}

\ge 0 $$

解得 ∑ i = 1 m ∑ j = 1 m α i α j K ( x i , x j ) ≥ 0 \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j K(x_i,x_j) \ge 0 ∑i=1m​∑j=1m​αi​αj​K(xi​,xj​)≥0,即上式(11)的右端。

再证(10)。充分性显然。

充分性:若 f = 0 f=0 f=0,则 f ∗ f = 0 f*f=0 f∗f=0。当 f = 0 f=0 f=0 时,有 α i = 0 \alpha_i=0 αi​=0,于是 f ∗ f f*f f∗f 显然为 0。

必要性:若 f ∗ f = 0 f*f=0 f∗f=0,则 f = 0 f=0 f=0。

为证必要性,首先证明不等式:

∣ f ∗ g ∣ 2 ≤ ( f ∗ f ) ( g ∗ g ) (12) |f*g|^2 \le (f*f)(g*g) \tag{12} ∣f∗g∣2≤(f∗f)(g∗g)(12)

设 f , g ∈ S f,g \in S f,g∈S, λ ∈ R \lambda \in R λ∈R,则 f + λ g ∈ S f + \lambda g \in S f+λg∈S,于是,

( f + λ g ) ∗ ( f + λ g ) ≥ 0 (f+\lambda g)*(f+\lambda g) \ge 0 (f+λg)∗(f+λg)≥0

f ∗ f + 2 λ ( f ∗ g ) + λ 2 ( g ∗ g ) ≥ 0 f*f + 2 \lambda (f*g) + \lambda^2 (g*g) \ge 0 f∗f+2λ(f∗g)+λ2(g∗g)≥0

利用 S S S 是对加法和数乘运算封闭的向量空间,以及已经证明的式(6)-(8)。

其左端是 λ \lambda λ 的二次三项式,非负,其判别式小于等于 0,即

( f ∗ g ) 2 − ( f ∗ f ) ( g ∗ g ) ≤ 0 (f*g)^2-(f*f)(g*g) \le 0 (f∗g)2−(f∗f)(g∗g)≤0

于是不等式(12)得证。现证若 f ∗ f = 0 f*f=0 f∗f=0,则 f = 0 f=0 f=0。事实上,若

f ( ⋅ ) = ∑ i = 1 m α i K ( ⋅ , x i ) f(·)=\sum_{i=1}^m \alpha_i K(·,x_i) f(⋅)=i=1∑m​αi​K(⋅,xi​)

则运算 ∗ * ∗ 的定义式(5),对任意的 x ∈ X x \in X x∈X,有

K ( ⋅ , x ) ∗ f = ∑ i = 1 m α i K ( x , x i ) = f ( x ) K(·,x)*f=\sum_{i=1}^m \alpha_i K(x,x_i) = f(x) K(⋅,x)∗f=i=1∑m​αi​K(x,xi​)=f(x)

K ( ⋅ , x ) K(·,x) K(⋅,x) 是一个没有经过线性变换的,只代入了一个参数 ϕ ( x ) \phi(x) ϕ(x) 的核函数。根据式(3)和定义式(5)即可得出。

于是,

∣ f ( x ) ∣ 2 = ∣ K ( ⋅ , x ) ∗ f ∣ 2 (13) |f(x)|^2 = |K(·,x)*f|^2 \tag{13} ∣f(x)∣2=∣K(⋅,x)∗f∣2(13)

由(12)和(9)有

∣ K ( ⋅ , x ) ∗ f ∣ 2 ≤ ( K ( ⋅ , x ) ∗ K ( ⋅ , x ) ) ( f ∗ f ) = K ( x , x ) ( f ∗ f ) \begin{align} |K(·,x)*f|^2 & \le (K(·,x)*K(·,x))(f*f) \\ & = K(x,x)(f*f) \end{align} ∣K(⋅,x)∗f∣2​≤(K(⋅,x)∗K(⋅,x))(f∗f)=K(x,x)(f∗f)​​

由(13)有

∣ f ( x ) ∣ 2 ≤ K ( x , x ) ( f ∗ f ) |f(x)|^2 \le K(x,x)(f*f) ∣f(x)∣2≤K(x,x)(f∗f)

此式表明,当 f ∗ f = 0 f*f=0 f∗f=0 时,对任意的 x x x 都有 ∣ f ( x ) ∣ = 0 |f(x)|=0 ∣f(x)∣=0。

至此,证明了 ∗ * ∗ 为向量空间 S S S 的内积。赋予内积的向量空间为内积空间。因此 S S S 是一个内积空间。

内积空间是带有内积的向量空间。因为增加了内积,所以允许我们在内积空间中讨论向量的角度和长度。

既然 ∗ * ∗ 为 S S S 的内积运算,那么仍然用·表示,即若

f ( ⋅ ) = ∑ i = 1 m α i K ( ⋅ , x i ) , g ( ⋅ ) = ∑ i = 1 l β j K ( ⋅ , z j ) f(·)=\sum_{i=1}^m \alpha_i K(·,x_i), \hspace{1em} g(·)=\sum_{i=1}^l \beta_j K(·,z_j) f(⋅)=i=1∑m​αi​K(⋅,xi​),g(⋅)=i=1∑l​βj​K(⋅,zj​)

f ⋅ g = ∑ i = 1 m ∑ j = 1 l α i β i K ( x i , z j ) (14) f·g = \sum_{i=1}^m \sum_{j=1}^l \alpha_i \beta_i K(x_i,z_j) \tag{14} f⋅g=i=1∑m​j=1∑l​αi​βi​K(xi​,zj​)(14)

3. 将内积空间 S 完备化为希尔伯特空间

希尔伯特空间是完备化的内积空间。

现在将内积空间 S S S 完备化。由式(14)定义的内积可以得到范数

∣ ∣ f ∣ ∣ = f ⋅ f (15) ||f||=\sqrt{f·f} \tag{15} ∣∣f∣∣=f⋅f ​(15)

因此, S S S 是一个赋范向量空间。根据泛函分析理论,对于不完备的赋函向量空间 S S S,一定可以使之完备化,得到完备的赋范向量空间 H H H。一个内积空间,当作为一个赋范向量空间是完备的时候,就是希尔伯特空间。这样,就得到了希尔伯特空间 H H H。

这一希尔伯特空间 H H H 称为再生核希尔伯特空间。这是由于核 K K K 具有再生性,即满足

K ( ⋅ , x ) ⋅ f = f ( x ) (16) K(·,x)·f=f(x) \tag{16} K(⋅,x)⋅f=f(x)(16)

K ( ⋅ , x ) ⋅ ( ⋅ , z ) = K ( x , z ) (17) K(·,x)·(·,z)=K(x,z) \tag{17} K(⋅,x)⋅(⋅,z)=K(x,z)(17)

称为再生核。

以上两式(16)和(17)可通过式(3)和(5)得出。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3