理解逻辑回归中的后验概率和损失函数

您所在的位置:网站首页 最大后验概率准则推导 理解逻辑回归中的后验概率和损失函数

理解逻辑回归中的后验概率和损失函数

2023-08-17 11:26| 来源: 网络整理| 查看: 265

一、理解后验概率

        在LR中, 后验概率 \small p\left ( y=1|\textbf{x} \right )=\sigma \left ( \textbf{w}^T\textbf{x}+b \right )。很多人不禁会问,为什么要这么计算?  这里通过对后验概率的推导,并结合sigmod,来谈谈自己的看法。

        首先,由贝叶斯公式得

                                                    \large p\left ( y=1|\textbf{x} \right )=\frac{p\left ( \textbf{x}|y=1 \right )p\left ( y=1 \right )}{p\left ( \textbf{x} \right )}                                                 (1)

        由全概率公式得

                                     \large p\left ( y=1|\textbf{x} \right )=\frac{p\left ( \textbf{x}|y=1 \right )p\left ( y=1 \right )}{p\left ( \textbf{x}|y=1 \right )p\left ( y=1 \right )+p\left ( \textbf{x}|y=0 \right )p\left ( y=0 \right )}                (2)

        化简 (2) 式得

                                                                     \large p\left ( y=1|\textbf{x} \right )=\frac{1}{1+{\color{Blue} \frac{p\left ( y=0|\textbf{x} \right )}{p\left ( y=1|\textbf{x} \right )}}}                                               (3)

        (3) 式在LR中的表示为

                                                                    \large p\left ( y=1|\textbf{x} \right )=\frac{1}{1+{\color{Blue} exp^{-\left ( \textbf{w}^{T}\textbf{x}+b \right )}}}                                      (4)

        (3) 式分母第二项表达的意思是 \large \textbf{x} 分到两个类的概率之比,那究竟是分到1的类别大还是分到0的概率大?简单来说便是该如何量化的问题。因此,(4) 式分母中的第二项就给出了一种合理的量化分法,可以分三种情况讨论一下这个问题。

        1、\textbf{x} 刚好落在 \textbf{w}^{T}\textbf{x}+b 决定的分类边界上。此时 (4) 中分母的第二子项的值为 1,分到两个类别的概率是相同的,(3) 中分母第二子项的值也应该为 1。

        2、\textbf{x} 落在 \textbf{w}^{T}\textbf{x}+b 决定的分类边界的上方。此时 (4) 中分母的第二子项的值会小于1,sigmod值大于 0.5,因此我们认为 \textbf{x} 属于 1 分类的概率更大一些,对应到 (3) 式分母的第二个子项,应该是分母应该比分子要大。

             

        3、\textbf{x} 落在 \textbf{w}^{T}\textbf{x}+b 决定的分类边界的下方。此时 (4) 中分母的第二子项的值大于1,sigmod值小于 0.5,因此我们认为 \textbf{x} 属于0 分类的概率会更大一些。对应到 (3) 式分母的第二个子项,应该是分母应该比分子要小。此时将样本 \textbf{x} 分错了,后面会介绍对此的惩罚。

        所以, 由上述三种情况的分析来看,逻辑回归中的后验概率表示和实际的后验概率表达的意图是相同的,只不过我们借助sigmod 和 \textbf{w}^{T}\textbf{x}+b 完成了对后验概率的量化,以此便可以通过最大似然定义损失函数并进行训练。

 

一、理解损失函数

        在大多数的参考资料中,LR中的损失函数定义为下式

                                                                    \large Loss=-\sum_{n=1}^{N}\left \{ t_n\mathrm{ln}y_n+\left ( 1-t_n \right )\mathrm{ln}\left ( 1-y_n \right ) \right \}

        如何去理解它那?其实很简单,我们来简单讨论一下。

        如果一个实际为 1 分类的样本被划分到了分类边界以下,说明模型把它分错了,对应到上式,它的惩罚是 -ln(y_n),即在分类边界以下且距离分类边界越远,-ln(y_n) 越大,给的惩罚越大,因为分类也分的太离谱了!如果离边界不远,-ln(y_n) 接近于 0,相当于给予一点点的惩罚。

        同样的,如果一个实际为 -1 分类的样本被划分到了分类边界以上,对应到上式,它的惩罚是 -ln(1-y_n)。即在分类边界以上且距离分类边界越远,-ln(1-y_n) 越大,给的惩罚越大,因为同样分类分的太离谱了!如果离边界不远,-ln(1-y_n) 接近于 0,相当于给予一点点的惩罚。

       和人一样,犯的错误较大,惩罚要大一些;犯的错误小一点,惩罚也小一点。

       那既然模型犯了错误,它如何改正错误那? 通过对损失函数求导得

                                                                                                \bigtriangledown Loss=\sum_{n=1}^{N}\left ( y_n-t_n \right )\textbf{x}

       这就是模型改错的具体行动,如果不犯错,上式为 0。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3