概率论全面总结

2024-07-15 03:03| 来源: 网络整理| 查看: 265

机器学习中，很多算法的推导，需要概率和统计的很多知识。学校里学的时候，基本是囫囵吞枣，也忘得差不离了。

现在复习一下，找一些概率与统计这门课的感觉。主要理解下什么是随机变量，与概率的关系，要样本干什么，等等。

1. 什么是古典概率？

有限个可能事件，且每个事件都是等可能概率事件。这个与抽样问题，经常联系起来

2. 什么是几何分布、超几何分布？

都是离散概率分布。是抽取问题的一种。

几何分布，是描述的n重伯努利实验成功的概率。前n-1次失败，第n次成功，才叫几何分布。或者说，首次成功的实验的概率分布。

超几何分布，其实是二项分布的变体，二项分布是同一事件，重复n次的概率分布；而超几何分布，是一个事情只在每个维度上，都做一次。

3. 放回抽样与不放回抽样的概率有什么不同？

其实是相同的。为什么？

放回抽样，很好理解，每次情景相同，概率都相同。

而不放回抽样，每次抽样，都是与前些次的抽样相关的。这其实是一个排列组合问题。有的书采用对称性进行分析，每次事件相互独立，且具有对称性，其基本事件：抽样的序列，仍是排列。

从相关性上，前面的人抽中，与抽不中，对后面都有影响，但是这种影响又相互抵消。除非，前面有人知道如何抽中指定的。这个采用全概率公式，推导比较合理。

如当抽过i-1次后，仍剩下m个红球，n个白球。第i次抽取白球的概率为

n/(m+n).

则第i+1次抽取白球的概率为：全概率公式： n/(m+n) * (n-1)/(m+n-1) + m/(m+n) * n/(m+n-1) = n/(m+n) 递推下去，每次抽取的概率都是相同的。

更进一步，这个问题，可变体为：蒙提霍尔问题，出自美国的电视游戏节目Let’s Make a Deal。汽车与山羊，三扇门，选中汽车的概率，在开启一扇门后，有没有变化。

若主持人不知情，则概率无变化。剩余两门：1/2,1/2，无放回抽样类似。

若主持人知情，概率就会发生变化。剩余两门：未开门的概率为2/3，1/3，非概率事件。

4. 什么是随机变量？与概率什么关系？

一个单值实值函数，是一个函数X。而每个具体的实值x，会有一个出现的概率，这个概率能用这个函数（随机变量）能体现。随机变量的概念在机器学习的贝叶斯学习中、模式识别的贝叶斯分类中，是分析的基础。

5. 离散随机变量，常见的有哪些

三种分布

利用排列组合的知识，0-1分布，二项分布/n重伯努利分布都比较好理解。

而泊松分布是一种指数分布的形式。基本上是泰勒展开式的形式。为什么会有泊松分布的形式？

它也是一个单峰值函数，n无穷大时，可以近似二项分布。因为二项分布的计算不如泊松分布方便。

以平均值，就能表征一个群体的特征的分布。n*lambda。围绕中心分布，两边衰减极快。

其主要描述一种稀有事件发生的概率。n很大，p很小。而且其期望与方差都是lambda。适合描述单位时间、空间内随机发生的事情。

–>> 随机变量，从离散型至连续型。离散型的随机变量，比较好理解，而连续型的随机变量，某一点的概率是为0.所以，连续型的随机变量，利用区间来表示。

而连续型的随机变量，即是一个连续型的函数。其用某区间内的概率表示，就比较合适。用区间概率表示的函数，就是随机变量的分布函数F(x)。而区间的概率表示：

P(x1

【本文地址】

今日新闻