【机器学习】线性回归

您所在的位置:网站首页 贝叶斯估计的优势 【机器学习】线性回归

【机器学习】线性回归

2024-07-07 07:26| 来源: 网络整理| 查看: 265

🌠 『精品学习专栏导航帖』

🐳最适合入门的100个深度学习实战项目🐳🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码🐙🐶【机器学习入门项目10例目录】项目详解 + 数据集 + 完整源码🐶🦜【机器学习项目实战10例目录】项目详解 + 数据集 + 完整源码🦜🐌Java经典编程100例🐌🦋Python经典编程100例🦋🦄蓝桥杯历届真题题目+解析+代码+答案🦄🐯【2023王道数据结构目录】课后算法设计题C、C++代码实现完整版大全🐯

文章目录 概述最大后验概率估计

2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐完善机器学习各个知识体系的文章,帮助大家更高效学习。

概述

之前讲的一篇文章使用的是频率派的角度进行论述使用L2正则化,就是在我们损失函数的后面添加L2正则项,我们说过学术界存在两个流派,分别是频率派和贝叶斯派,它们两个的主要区别就是求解问题的方式不同,一般频率派假设我们的参数都是未知变量,而贝叶斯假设我们的参数是已知的,就是参数已经符合一个分布,但是符合什么分布不清楚,这个就是我们后边要用到的先验概率。

最大后验概率估计

由于本篇文章要从贝叶斯角度进行论述,所以不适用构造损失函数的形式,而是使用最大概率估计。

我们假设存在 ϵ ∼ N ( 0 , σ 0 2 ) \epsilon \sim N(0,\sigma_0^2) ϵ∼N(0,σ02​)

由于我们的 y = w T x + ϵ y=w^Tx+\epsilon y=wTx+ϵ,所以此时我们的y也符合高斯分布,即: y ∼ N ( w T x , σ 0 2 ) y \sim N(w^Tx,\sigma_0^2) y∼N(wTx,σ02​) 存在先验分布,即参数 w的分布,我们同样假设其分布符合高斯分布: w ∼ N ( 0 , σ 1 2 ) w \sim N(0,\sigma_1^2) w∼N(0,σ12​) 所以这样就会获得两者的概率密度公式: P ( w ) = 1 2 π σ 1 e x p ( − w T w 2 σ 1 2 ) P(w)=\frac{1}{\sqrt{2\pi}\sigma_1}exp(-\frac{w^Tw}{2\sigma_1^2}) P(w)=2π ​σ1​1​exp(−2σ12​wTw​)

P ( Y ∣ w ; X ) = 1 2 π σ 0 e x p ( − ( Y − w T X ) T ( Y − w T X ) 2 σ 0 2 ) P(Y|w;X)=\frac{1}{\sqrt{2\pi}\sigma_0}exp(-\frac{(Y-w^TX)^T(Y-w^TX)}{2\sigma_0^2}) P(Y∣w;X)=2π ​σ0​1​exp(−2σ02​(Y−wTX)T(Y−wTX)​)

为了获得最优解参数,使用最大后验概率估计,即: P ( w ∣ Y ) = P ( w ) P ( Y ∣ w ) P ( Y ) P(w|Y)=\frac{P(w)P(Y|w)}{P(Y)} P(w∣Y)=P(Y)P(w)P(Y∣w)​ 所以我们的目标就是获得: a r g m a x w P ( w ∣ Y ) = a r g m a x w P ( w ) P ( Y ∣ w ) P ( Y ) = a r g m a x w P ( w ) P ( Y ∣ w ) = a r g m a x w l o g ( P ( w ) P ( Y ∣ w ) ) = a r g m a x w l o g 1 2 π σ 1 − w T w 2 σ 1 2 + l o g 1 2 π σ 0 − ( Y − w T X ) T ( Y − w T X ) 2 σ 0 2 = a r g m i n w w T w 2 σ 1 2 + ( Y − w T X ) 2 2 σ 0 2 = a r g m i n w ( Y − w T X ) 2 + σ 0 2 σ 1 2 w T w = a r g m i n w ∑ i = 1 m ( y i − w T x i ) + λ w T w argmax_wP(w|Y)\\=argmax_w\frac{P(w)P(Y|w)}{P(Y)}\\=argmax_wP(w)P(Y|w)\\=argmax_wlog(P(w)P(Y|w))\\=argmax_wlog\frac{1}{\sqrt{2\pi}\sigma_1}-\frac{w^Tw}{2\sigma_1^2}+log\frac{1}{\sqrt{2\pi}\sigma_0}-\frac{(Y-w^TX)^T(Y-w^TX)}{2\sigma_0^2}\\=argmin_w\frac{w^Tw}{2\sigma_1^2}+\frac{(Y-w^TX)^2}{2\sigma_0^2}\\=argmin_w(Y-w^TX)^2+\frac{\sigma_0^2}{\sigma_1^2}w^Tw\\=argmin_w\sum_{i=1}^m(y_i-w^Tx_i)+\lambda w^Tw argmaxw​P(w∣Y)=argmaxw​P(Y)P(w)P(Y∣w)​=argmaxw​P(w)P(Y∣w)=argmaxw​log(P(w)P(Y∣w))=argmaxw​log2π ​σ1​1​−2σ12​wTw​+log2π ​σ0​1​−2σ02​(Y−wTX)T(Y−wTX)​=argminw​2σ12​wTw​+2σ02​(Y−wTX)2​=argminw​(Y−wTX)2+σ12​σ02​​wTw=argminw​i=1∑m​(yi​−wTxi​)+λwTw 证毕,我们获得的结果与采用频率派即在损失函数后添加L2正则项一致。

写在最后

        大家好,我是阿光,觉得文章还不错的话,记得“一键三连”哦!!!

img



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3