常见激活函数，及其优缺点

2024-07-12 12:39| 来源: 网络整理| 查看: 265

容易导致梯度消失。如果我们初始化神经网络的权值为 [0,1]之间的随机值，由反向传播算法的数学推导可知，梯度从后向前传播时，每传递一层梯度值都会减小为原来的0.25倍，如果神经网络隐层特别多，那么梯度在穿过多层后将变得非常小接近于0，即出现梯度消失现象。（这里有个坑，面试官可能听你提起反向传播，然后问你：什么是反向传播？会推导公式吗？看大佬博客：神经网络BP反向传播算法原理和详细推导流程） BP算法是一个迭代算法，它的基本思想为：（1）先计算每一层的状态和激活值，直到最后一层（即信号是前向传播的）；（2）计算每一层的误差，误差的计算过程是从最后一层向前推进的（这就是反向传播算法名字的由来）；（3）更新参数（目标是误差变小）。求解梯度用链导法则。迭代前面两个步骤，直到满足停止准则（比如相邻两次迭代的误差的差别很小）。

问：梯度消失和梯度爆炸？改进方法。解决梯度爆炸： a.可以通过梯度截断。通过添加正则项。解决梯度消失： a.将RNN改掉，使用LSTM等自循环和门控制机制。 b.优化激活函数，如将sigmold改为relu c.使用batchnorm d.使用残差结构可以看这篇文章详解机器学习中的梯度消失、爆炸原因及其解决方法

Sigmoid 的输出不是0均值（即zero-centered）。这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。结果：那么对w求局部梯度则都为正，这样在反向传播的过程中w要么都往正方向更新，要么都往负方向更新，导致有一种捆绑的效果，使得收敛缓慢。（我没太看明白，点击看原文这里，或者这里）我的理解是，像relu函数，导数为1，输入正数输出则为正数，输入负数输出则为负数，正负情况都有。而若经过sigmoid后只有正数了，如果损失函数为二次函数 y = x 2 y=x^{2} y=x2,那只能从右边进行梯度下降了，左边那一块没有用上。（梯度下降是考点，引申 sgd，batch-sgd，优缺点；其他优化器等查看：机器学习：各种优化器Optimizer的总结与比较）（面试官看你说了数据的偏移，不是0均值，可能会问你，你会哪些normalization[规范化]方法？batch norm，layer norm[头条算法岗问过]会不会？查看：Layer-Normalization详细解析或者 Batch-Normalization详细解析或者看这篇 BatchNormalization…等总结）不过这个缺点相比梯度消失来说比较小。

解析式中含有幂运算，计算机求解时相对来讲比较耗时。对于规模比较大的深度网络，这会较

【本文地址】

常见激活函数，及其优缺点

常见激活函数，及其优缺点

今日新闻

推荐新闻