统计学习方法

2024-07-15 15:37| 来源: 网络整理| 查看: 265

一、参数估计

参数估计：在《统计学习方法》经常估计模型中所含有的参数并且模型被一小部分参数所控制，这些参数可以是概率分布也可以是分布的参数值。因此，给定一堆数据，我们希望用一个给定的分布或模型去拟合实际数据分布的时候，就要估计出这些参数的值，以便能够利用分布模型来做密度估计。这就是参数估计！

参数估计方法：MLE、MAP、Bayes

二、极大似然估计

1、基本思想：最大似然估计的思想是使得观测数据（样本）发生概率最大的参数就是最好的参数。（先验）

2、求解步骤：

确定似然函数将似然函数转换为对数似然函数求对数似然函数的最大值（求导，解似然方程）

3、例题参考

三、最大后验估计

1、基本思想：在极大似然估计的基础上，引入参数的分布。（后验）

2、求解步骤：

确定似然函数与参数的分布将似然函数转换为对数似然函数求对数似然函数的最大值（求导，解似然方程）

3、例题参考

四、贝叶斯估计

1、基本思想：在极大似然估计的基础上，引入参数的分布并代入到贝叶斯公式中。个人理解，所谓的现有与后验与解决的问题无关，只与自己所估计的参数有关（或与含有参数的概率分布有关）。

2、求解步骤：

确定似然函数与参数的分布（使用贝叶斯公式）将似然函数转换为对数似然函数求对数似然函数的最大值（求导，解似然方程）

贝叶斯求得的是参数的概率分布函数，而最大后验概率虽然也是将参数看做分布但最后求得的结果却只是参数的具体值。具体在进行参数估计时，贝叶斯考虑分母关于样本的分布，由于计算复杂所以需要构造出共轭分布，重点：贝叶斯在估计时，不是不求分母，只是大多数情况下分母不影响求导。最大后验概率是完全不考虑分母。（有时傻傻分不清楚）

3、例题参考

4、概率分布与概率函数：

概率分布：给出了所有取值及其对应的概率（少一个也不行），可见只对离散型变量有意义

概率函数：用函数形式给出每个取值发生的概率P(x)（x=x1，x2，x3），只对离散型变量有意义，实际上是对概率分布的数学描述。

概率密度函数：概率指事件随机发生的机率，对于均匀分布函数，概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度，它的值是非负的，可以很大也可以很小。我们常说的分布是概率密度函数并不是概率，但在计算时（进行参数估计时）我们直接使用概率密度f(xi)代替概率p(xi)，主要是二者具有近似关系。

总结：对于离散型变量而言，可以用概率函数P(x)描述所有取值x的对应概率。而对于连续型变量而言，“取某个具体值的概率”的说法是无意义的，只能说“取值落在某个区间内的概率”，或“取值落在某个值领域内的概率”，因此对连续型变量提“概率函数”是不恰当的。连续型随机变量取某些具体值的概率为零。

五、朴素贝叶斯的参数估计（寻找其在朴素贝叶斯中MLE与BE区别与联系） 1）参数估计的核心——似然函数

首先，在使用极大似然估计与贝叶斯估计进行参数估计时一定要正确定义似然函数。参数估计方法是一种十分灵活的方法，似然函数代表模型，而这个模型并不一定是问题的模型只要含有所求解的参数即可。似然函数的要求：

（1）一定要含有所求参数

（2）基本以所有样本（整个样本集作为整体）出现的概率作为似然函数，注：这个样本并不一定与X有关，所以似然函数不一定含有X；但由于我们建立模型时常希望预测出Y，所以似然函数基本是围绕Y建立，如使用P(Y)，P(X,Y)，P(Y|X)表示样本Y出现的概率（都是合理的）并以此做为似然函数（通常情况将含有参数的分布作为似然函数，不用过分的纠结先验还是后验，能求就行）

（3）似然函数必须可以通过准确的分布表达式表示，建立过程通常是先确定一个样本的某些分布，进而表达整个样本集（当无法描述这些分布时，极端做法是将单个样本的概率分布设成参数（分布律表示））

2）举例：估计朴素贝叶斯公式参数，任务目的：估计P(Y)，P(Y|X) 方法1：从Y的分布律构造似然函数估计P(Y)、从P(Y|X)的分布律构造似然函数估计P(Y)

1、极大似然求P(Y)