Logisitc 回归模型及其数学性质学习札记

您所在的位置:网站首页 logistic模型建立 Logisitc 回归模型及其数学性质学习札记

Logisitc 回归模型及其数学性质学习札记

2023-04-08 00:37| 来源: 网络整理| 查看: 265

本文正在参加 人工智能创作者扶持计划

0.动机

  感觉最近是一段拨乱反正的时间段 : 想要更深入理论更好地了解之前很多看论文时没有细看的数学推导和数学证明 (感觉想要真正做出好的工作的前提之一是对于数学性质的扎实理解),然后就是补各种知识。为了保证自己能够在比较快的时间内补完相关知识,我决定一边看一边理解和记录,以此倒逼自己的学习进度。这篇札记主要是对于Logistic回归模型的数学性质的理解和记录。

1. Logistic 分布

定义 1 设 XXX 是连续随机变量,XXX 服从 Logistic 分布是指 XXX 具有下列分布函数和密度函数 :

F(x)=P(X⩽x)=11+e−(x−μ)/γf(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2\begin{aligned} & F(x)=P(X \leqslant x)=\frac{1}{1+\mathrm{e}^{-(x-\mu) / \gamma}} \\ & f(x)=F^{\prime}(x)=\frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^2} \end{aligned}​F(x)=P(X⩽x)=1+e−(x−μ)/γ1​f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ​​

  其中,μ\muμ 为位置参数,γ\gammaγ 为形状参数。下对其进行数学性质的推导。

E[x]=∫−∞∞xf(x)dx=∫−∞∞xe−(x−μ)/γγ(1+e−(x−μ)/γ)2dx=∫−∞∞xe−t(1+e−t)2dt(let x−μγ=t)=∫−∞∞(μ+tγ)e−t(1+e−t)2dt=μ∫−∞∞e−t(1+e−t)2dt(tγe−t(1+e−t)2+−tγet(1+et)2=0)=−μet+1∣t=−∞∞=μ\begin{aligned} \mathbb{E}[x]=&\int_{-\infty}^{\infty}xf(x) \mathrm{d} x =\int_{-\infty}^{\infty} x \frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^2} \mathrm{d} x \\ =&\int_{-\infty}^{\infty} \frac{x \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t\quad \left(\text{let } \frac{x-\mu}{\gamma}=t\right) \\ =&\int_{-\infty}^{\infty}\frac{(\mu+t\gamma) \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t=\mu\int_{-\infty}^{\infty}\frac{e^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2}\mathrm{d} t\\ &\quad\left(\frac{t\gamma e^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2}+\frac{-t\gamma e^{t}}{\left(1+\mathrm{e}^{t}\right)^2}=0\right)\\ =&\left.-\frac{\mu}{e^t+1}\right|_{t=-\infty}^{\infty}=\mu \end{aligned}E[x]====​∫−∞∞​xf(x)dx=∫−∞∞​xγ(1+e−(x−μ)/γ)2e−(x−μ)/γ​dx∫−∞∞​(1+e−t)2xe−t​dt(let γx−μ​=t)∫−∞∞​(1+e−t)2(μ+tγ)e−t​dt=μ∫−∞∞​(1+e−t)2e−t​dt((1+e−t)2tγe−t​+(1+et)2−tγet​=0)−et+1μ​∣∣​t=−∞∞​=μ​ D[x]=E[(x−E[x])2]=E[x2−2μx+μ2]=E[x2]−μ2=∫−∞∞x2e−(x−μ)/γγ(1+e−(x−μ)/γ)2dx−μ2=∫−∞∞x2e−t(1+e−t)2dt−μ2(let x−μγ=t)=∫−∞∞(μ+tγ)2e−t(1+e−t)2dt−μ2=μ2∫−∞∞e−t(1+e−t)2dt+γ2∫−∞∞t2e−t(1+e−t)2dt−μ2(tγe−t(1+e−t)2+−tγet(1+et)2=0)=γ2∫−∞∞t2e−t(1+e−t)2dt=(πγ)23\begin{aligned} \mathbb{D}[x]=&\mathbb{E}\left[\left(x-\mathbb{E}[x]\right)^2\right]=\mathbb{E}\left[x^2-2\mu x+\mu^2\right]\\ =&\mathbb{E}[x^2]-\mu^2=\int_{-\infty}^{\infty} x^2 \frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^2} \mathrm{d} x-\mu^2\\ =&\int_{-\infty}^{\infty} \frac{x^2 \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t-\mu^2\quad \left(\text{let } \frac{x-\mu}{\gamma}=t\right)\\ =&\int_{-\infty}^{\infty}\frac{(\mu+t\gamma)^2 \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t-\mu^2\\ =&\mu^2\int_{-\infty}^{\infty}\frac{\mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t+\gamma^2\int_{-\infty}^{\infty}\frac{t^2 \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t-\mu^2\\ &\quad\left(\frac{t\gamma e^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2}+\frac{-t\gamma e^{t}}{\left(1+\mathrm{e}^{t}\right)^2}=0\right)\\ =&\gamma^2\int_{-\infty}^{\infty}\frac{t^2 \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t=\frac{(\pi\gamma)^2}{3} \end{aligned}D[x]======​E[(x−E[x])2]=E[x2−2μx+μ2]E[x2]−μ2=∫−∞∞​x2γ(1+e−(x−μ)/γ)2e−(x−μ)/γ​dx−μ2∫−∞∞​(1+e−t)2x2e−t​dt−μ2(let γx−μ​=t)∫−∞∞​(1+e−t)2(μ+tγ)2e−t​dt−μ2μ2∫−∞∞​(1+e−t)2e−t​dt+γ2∫−∞∞​(1+e−t)2t2e−t​dt−μ2((1+e−t)2tγe−t​+(1+et)2−tγet​=0)γ2∫−∞∞​(1+e−t)2t2e−t​dt=3(πγ)2​​

  μ\muμ 确定函数的位置,γ\gammaγ 确定函数的图像性质,与上述定义一致。

  f(x)f(x)f(x) 和 F(x)F(x)F(x) 的图像性质如上图所示。f(x)f(x)f(x) 关于 μ\muμ 对称,F(x)F(x)F(x) 关于 (μ,12)(\mu,\frac{1}{2})(μ,21​) 中心对称。

2. 二项 Logistic 回归模型

  二项 Logistic 回归模型 (binomial logistic regression model) 是一种分类模型,由条件概率分布 P(Y∣X)P(Y\mid X)P(Y∣X) 表示,形式为参数化的 Logistic 分布。这里,随机变量 XXX 取值为实数,随机变量 YYY 取值为 111 或 000。我们通过监督学习的方法来估计模型参数。

定义 2 (Logistic 回归模型) 二项 Logistic 回归模型是如下的条件概率分布 :

P(Y=1∣x)=exp⁡(w⋅x+b)1+exp⁡(w⋅x+b)P(Y=0∣x)=11+exp⁡(w⋅x+b)\begin{aligned} & P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)} \\ & P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)} \end{aligned}​P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)​P(Y=0∣x)=1+exp(w⋅x+b)1​​

  这里,x∈Rnx\in\mathbb{R}^nx∈Rn 是输入,Y∈{0,1}Y\in\{0,1\}Y∈{0,1} 是输出,w∈Rnw\in\mathbb{R}^nw∈Rn 和 b∈Rb\in\mathbb{R}b∈R 是参数,www 称为权值向量,bbb 称为偏置,w⋅xw \cdot xw⋅x 为 www 和 xxx 的内积。

  有时为了方便,将权值向量和输入向量加以扩充,仍记作 www,xxx,w=(w(1),w(2),⋯ ,w(n),b)Tw=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^Tw=(w(1),w(2),⋯,w(n),b)T,x=(x(1),x(2),⋯ ,x(n),1)Tx=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)^Tx=(x(1),x(2),⋯,x(n),1)T。这时,Logistic 回归模型如下 :

P(Y=1∣x)=exp⁡(w⋅x)1+exp⁡(w⋅x)P(Y=0∣x)=11+exp⁡(w⋅x)\begin{aligned} & P(Y=1 \mid x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)} \\ & P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x)} \end{aligned}​P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)​P(Y=0∣x)=1+exp(w⋅x)1​​

  现在考查 Logistic 回归模型的特点。一个事件的几率 (odds) 是指该事件发生的概率与该事件不发生的概率的比值.如果事件发生的概率是 ppp,那么该事件的几率是 p1−p\frac{p}{1-p}1−pp​,该事件的对数几率 (log odds) 或 logit 函数是

logit(p)=log⁡p1−p\text{logit}(p)=\log \frac{p}{1-p}logit(p)=log1−pp​

  对 Logistic 回归而言,结合上面的简易形式有 :

log⁡P(Y=1∣x)1−P(Y=1∣x)=w⋅x\log \frac{P(Y=1 \mid x)}{1- P(Y=1 \mid x)}=w \cdot xlog1−P(Y=1∣x)P(Y=1∣x)​=w⋅x

  这就是说,在 Logistic 回归模型中,输出 Y=1Y=1Y=1 的对数几率是输入 xxx 的线性函数。或者说,输出 Y=1Y=1Y=1 的对数几率是由输入 xxx 的线性函数表示的模型,即 Logistic 模型。

3. 多项 Logistic 回归

  上面介绍的 Logistic 回归模型是二项分类模型,用于二类分类。可以将其推广为多项 Logistic 回归模型 (multi-nominal logistic regression model),用于多类分类。假设离散型随机变量 YYY 的取值集合是 {1,2,⋯ ,K}\{1,2,\cdots,K\}{1,2,⋯,K},那么多项 Logistic 回归模型是

P(Y=k∣x)=exp⁡(wk⋅x)1+∑k=1K−1exp⁡(wk⋅x)k=1,2,⋯ ,K−1P(Y=K∣x)=11+∑k=1K−1exp⁡(wk⋅x)\begin{aligned} & P(Y=k \mid x)=\frac{\exp (w_k \cdot x)}{1+\sum_{k=1}^{K-1} \exp (w_k \cdot x)} & k=1,2,\cdots,K-1\\ & P(Y=K \mid x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp (w_k \cdot x)} \end{aligned}​P(Y=k∣x)=1+∑k=1K−1​exp(wk​⋅x)exp(wk​⋅x)​P(Y=K∣x)=1+∑k=1K−1​exp(wk​⋅x)1​​k=1,2,⋯,K−1

  其中 x∈Rn+1x\in\mathbb{R}^{n+1}x∈Rn+1,wk∈Rn+1w_k\in\mathbb{R}^{n+1}wk​∈Rn+1

参考资料 (References) 李航《统计学习方法》第六章


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3