概率与统计

您所在的位置：网站首页 › 怎么查某种疾病的发生率 › 概率与统计

概率与统计

2024-06-17 14:50| 来源: 网络整理| 查看: 265

条件概率

事物A独立发生的概率为

P(A)

，事物B独立发生的概率为

P(B)

，那么有：

P(A|B)

表示事物B发生之后事物A发生的概率；

P(B|A)

表示事物A发生之后事物B发生的概率；

全概率

我们可以将公式写成全量的形式：

B_k(k=1,2,3...,n)

表示全量相互排斥且性质关联的事物，即：

$B_i\cap B_j=\oslash (空集)$ B_i\cap B_j=\oslash (空集)

，

$B_1\cup B_2 \cup .....B_i = \Omega (全集的子集)$ B_1\cup B_2 \cup .....B_i = \Omega (全集的子集)

那么可以得到

$P(A)=\sum_j^iP(B_j)P(A|B_j)$ P(A)=\sum_j^iP(B_j)P(A|B_j)

,这就是全概率公式。

全概率公式的意义在于：无法知道一个事物独立发生的概率，但是我们可以将其在各种条件下发生的概率进行累加获得。

全概率的例子

例1，已知某种疾病的发病率是0.001，即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病，它的准确率是0.99，即在患者确实得病的情况下，它有99%的可能呈现阳性。它的误报率是5%，即在患者没有得病的情况下，它有5%的可能呈现阳性。一个人检测为阳性的概率是多少。

$设P(A)=0.001表示发病率，则P(\bar{A} )=0.999表示不发病率。P(B)表示检测为阳性的概率。所以：$ 设P(A)=0.001表示发病率，则P(\bar{A} )=0.999表示不发病率。P(B)表示检测为阳性的概率。所以： $P(B)=P(A)P(B|A) + P(\bar{A})P(B|\bar{A})，且P(B|A)=0.99,P(B|\bar{A})=0.05,所以$ P(B)=P(A)P(B|A) + P(\bar{A})P(B|\bar{A})，且P(B|A)=0.99,P(B|\bar{A})=0.05,所以

P(B)=0.001×0.99 + 0.999×0.05=0.05094

例2，袋子中50个球，20个黄球，30个白球。2个人一次从袋中各获取一个球，且不放回，求第二个人取得黄球的概率。

$P(A)=\frac{2}{5}表示第一个人取得黄球的概率,则P(\bar{A})=\frac{3}{5}。$ P(A)=\frac{2}{5}表示第一个人取得黄球的概率,则P(\bar{A})=\frac{3}{5}。

B表示第二个人取得黄球的事件。有： $P(B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})=\frac{2}{5}×\frac{19}{49}+\frac{3}{5}×\frac{20}{49}=\frac{2}{5}$ P(B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})=\frac{2}{5}×\frac{19}{49}+\frac{3}{5}×\frac{20}{49}=\frac{2}{5}

从另外一个角度说，无论前面的人抽了多少次，后面的人抽签总体概率是不变的。

例3，5张卡片上分别标记了1,2,3,4,5，每次取2张，连续取2次，取出后不放回。求第二次取出的卡片，比第一次取出的卡片大的概率。

$A表示第二张牌大的事件。B_i,i\in[1,5]表示第一张抽到1到5的事件。$ A表示第二张牌大的事件。B_i,i\in[1,5]表示第一张抽到1到5的事件。 $第一张抽到任何一张牌概率都是一样的，所以P(B_i)=\frac{1}{5}。$ 第一张抽到任何一张牌概率都是一样的，所以P(B_i)=\frac{1}{5}。

第一张牌抽到1时，第二张牌大的概率为P(A|B_1)=1。 $第一张牌抽到2时，第二张牌大的概率为P(A|B_2)=\frac{3}{4}。$ 第一张牌抽到2时，第二张牌大的概率为P(A|B_2)=\frac{3}{4}。 $以此类推P(A|B_3)=\frac{2}{4},P(A|B_4)=\frac{1}{4},P(A|B_5)=0。所以：$ 以此类推P(A|B_3)=\frac{2}{4},P(A|B_4)=\frac{1}{4},P(A|B_5)=0。所以： $P(A)=\sum_{i=1}^{5}P(B_i)P(A|B_i)=\frac{1}{5}×1+\frac{1}{5}×\frac{3}{4}+\frac{1}{5}×\frac{2}{4}+\frac{1}{5}×\frac{1}{4}+\frac{1}{5}×0=\frac{1}{2}$ P(A)=\sum_{i=1}^{5}P(B_i)P(A|B_i)=\frac{1}{5}×1+\frac{1}{5}×\frac{3}{4}+\frac{1}{5}×\frac{2}{4}+\frac{1}{5}×\frac{1}{4}+\frac{1}{5}×0=\frac{1}{2}

例4，甲袋有5只白球、7个红球，乙袋有4只白球、2只红球。任意取一个袋子，求从袋子取得白球的概率。

$设A:获取的白球的事件，B:获得甲袋子的事件、\bar{B}:获取乙袋子。那么：$ 设A:获取的白球的事件，B:获得甲袋子的事件、\bar{B}:获取乙袋子。那么： $P(A)=P(B)P(A|B)+P(\bar{B})P(A|\bar{B})$ P(A)=P(B)P(A|B)+P(\bar{B})P(A|\bar{B}) $P(B)=P(\bar{B})=\frac{1}{2},P(A|B)=\frac{5}{12},P(A|\bar{B})=\frac{4}{6},所以：$ P(B)=P(\bar{B})=\frac{1}{2},P(A|B)=\frac{5}{12},P(A|\bar{B})=\frac{4}{6},所以： $P(B)=\frac{1}{2}×\frac{5}{12}+\frac{1}{2}×\frac{4}{6}=\frac{13}{24}$ P(B)=\frac{1}{2}×\frac{5}{12}+\frac{1}{2}×\frac{4}{6}=\frac{13}{24}*贝叶斯公式 $P(A|B)=P(A)×\frac{P(B|A)}{P(B)}$ P(A|B)=P(A)×\frac{P(B|A)}{P(B)}

贝叶斯公式的理解：

可以理解他是全概率公式的反向应用，他是求某个条件出现时某个事件发生的概率。定义如下：

P(A)表示前置概率，表示当B事件未发生时A事件发生的概率。

P(A|B)为后置概率，表示B事件发生之后A事件发生的概率。 $贝叶斯公式可以看做是事件B发生后对前置概率的修正，\frac{P(B|A)}{P(B)}是修正因子。$ 贝叶斯公式可以看做是事件B发生后对前置概率的修正，\frac{P(B|A)}{P(B)}是修正因子。

沿用前面医学的例子：

例1，已知某种疾病的发病率是0.001，即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病，它的准确率是0.99，即在患者确实得病的情况下，它有99%的可能呈现阳性。它的误报率是5%，即在患者没有得病的情况下，它有5%的可能呈现阳性。一个人检测为阳性时候，他确切患病的几率是多少。

$设P(A)=0.001表示发病率，则P(\bar{A} )=0.999表示不发病率。P(B|A)=0.99,P(B|\bar{A})=0.05。所以：$ 设P(A)=0.001表示发病率，则P(\bar{A} )=0.999表示不发病率。P(B|A)=0.99,P(B|\bar{A})=0.05。所以： $P(A|B)=P(A)×\frac{P(B|A)}{P(B)},用全概率公式：$ P(A|B)=P(A)×\frac{P(B|A)}{P(B)},用全概率公式： $P(A|B)=P(A)×\frac{P(B|A)}{P(A)P(B|A)+P(\bar{A})P(B|\bar{A})}$ P(A|B)=P(A)×\frac{P(B|A)}{P(A)P(B|A)+P(\bar{A})P(B|\bar{A})} $P(A|B)=0.001×\frac{0.99}{0.001×0.99+0.999*0.05}\approx 0.01943=1.94\%$ P(A|B)=0.001×\frac{0.99}{0.001×0.99+0.999*0.05}\approx 0.01943=1.94\%

从结论看，这个试剂挺不可靠的。

将贝叶斯公式的底部展开为全概率公式：

$P(A_k|B)=P(A_k)×\frac{P(B|A_k)}{\sum_{j=1}^nP(A_j)P(B|A_j)},j\in(0,n),A_j表示相互独立的事件。$ P(A_k|B)=P(A_k)×\frac{P(B|A_k)}{\sum_{j=1}^nP(A_j)P(B|A_j)},j\in(0,n),A_j表示相互独立的事件。

使用全概率公式展开之后有个很直观的发现：当我们考察某一个事件的条件概率时——事件

发生之后

A_k

发生的概率，需要将整个样本空间中其他概率事件也加入到其中来。

似然函数

似然函数个人理解是一种更加“公式化”的条件概率表达式，因为他书写的形式和条件概率相比并没有太大区别——

$P(x|\theta )$ P(x|\theta )

,只是解读方式不同。这里的

表示样本特征数据，

$\theta$ \theta

表示模型参数。

如果

$\theta$ \theta

已知并且固定，那么表示这个是一个概率计算模型，表示：不同的样本

在固定的模型参数

$\theta$ \theta

的概率值。

如果

已经并且固定，表示这是一个似然计算模型（统计模型），表示不同的样本用于求解模型参数

$\theta$ \theta

。

极大似然估计

按照前面似然函数

$P(x|\theta)$ P(x|\theta)

的介绍，似然函数可以看做

是已知的，

$\theta$ \theta

是未知的，极大似然估计就是在已知

的情况下求取

$\theta$ \theta

。

在现实的生产生活中也常常会遇到这样的问题。我们以及有了样本以及对应的标签（结论），如何根据这些样本来计算（推算）条件

$\theta$ \theta

是一件很困难的事情。而极大似然估计就是一个根据样本值

和结论数据

$P(x|\theta)$ P(x|\theta)

计算条件参数

$\theta$ \theta

的过程。

总的来说，极大似然估计是一种参数估计算法。使用极大似然估计有一个很重要的先决条件——每一组样本都是独立的，并且有充分的训练样本。

先看看样本独立的判断公式：

P(A,B)=P(A)×P(B)

，即2个事物同时发生的概率等于事物独立发生概率的乘积。

极大似然评估的公式及像这个公式。

设有一组样本

$D=\{x_1,x_2,x_3...x_n\}$ D=\{x_1,x_2,x_3...x_n\}

,所有样本的联合概率密度

$P(D|\theta)$ P(D|\theta)

称为相对于样本

$\{x_1,x_2,x_3...x_n\}$ \{x_1,x_2,x_3...x_n\}

的似然函数。那么由独立判定公式推断出所有样本的概率为：

$l(\theta)=P(D|\theta)=P(x_i|\theta)=\prod_{i=1}^n P(x_i|\theta)$ l(\theta)=P(D|\theta)=P(x_i|\theta)=\prod_{i=1}^n P(x_i|\theta)

。

设

$\hat{\theta}$ \hat{\theta}

是使得

$l(\theta)$ l(\theta)

取得最大值的

$\theta$ \theta

值，那么

$\hat{\theta}$ \hat{\theta}

是

$\theta$ \theta

的极大似然估计量。可以使用下面的公式表示

$\hat{\theta}$ \hat{\theta}

与

的关系：

$\hat{\theta}=d(D)=D\{x_1,x_2,x_3...x_n\}$ \hat{\theta}=d(D)=D\{x_1,x_2,x_3...x_n\}

$P(x|\hat{\theta})称为极大似然评估值。$ P(x|\hat{\theta})称为极大似然评估值。

实际计算时，计算连乘比较麻烦，我们可以引入对数将其转换为一个求和的过程：

$L(\theta)=lnl(\theta)=\sum_i^nlnP(x_i|\theta)$ L(\theta)=lnl(\theta)=\sum_i^nlnP(x_i|\theta)

,因为

lnxy=lnx+lny

。

$L(\theta)$ L(\theta)

也称为对数似然函数。

如果

$L(\theta)$ L(\theta)

连续可微，那么可以使用导数为0求函数的凸点。即：

$\frac{d(L(\theta))}{d\theta} = 0$ \frac{d(L(\theta))}{d\theta} = 0

。

将条件因子扩展为M个，即

$P(x_i,\theta_j),i\in(0,n],j\in(0,m]$ P(x_i,\theta_j),i\in(0,n],j\in(0,m]

,则似然函数（对数似然函数变成）：

$L(\theta_j)=\sum_{i=1}^n\ln P(x_i|\theta_j)$ L(\theta_j)=\sum_{i=1}^n\ln P(x_i|\theta_j)

此时每一个

$\theta_j$ \theta_j

的求导变成一个求偏导数的过程：

$\frac{∂L(\theta_j)}{∂\theta_k} = \frac{∂\sum_{i=1}^n\ln P(x_i|\theta_j)}{∂\theta_k}$ \frac{∂L(\theta_j)}{∂\theta_k} = \frac{∂\sum_{i=1}^n\ln P(x_i|\theta_j)}{∂\theta_k}

,每一个

$\theta_j$ \theta_j

都要对

$L(\theta_j)$ L(\theta_j)

求导。

最大似然评估的案例最大似然评估计算

最大似然评估（也称为极大似然评估）的用处是什么？首先可以将每个字眼拆解开来看。最大就是要找最大值，似然说明并不精确似乎就是这个值，评估指的是这是一个过程。

现实生活中的例子：2对夫妇

$(A,\hat{A})$ (A,\hat{A})

和

$(B,\hat{B})$ (B,\hat{B})

和一个小孩

。从外观上看，小孩

长相比较接近夫妇

$(A,\hat{A})$ (A,\hat{A})

，有点像

，不像

$\hat{B}$ \hat{B}

,让你猜测

是谁的小孩。思维正常一点的人肯定会说

是

$(A,\hat{A})$ (A,\hat{A})

的小孩，这本身就是一个自然而然的判断过程，用数学解释：

$设P(A|C)P(B|C)，P(\hat{A}|C)P(\hat{B}|C)。P(x|C)表示小孩更像谁，x\in[A,\hat{A},B,\hat{B}]。$ 设P(A|C)>P(B|C)，P(\hat{A}|C)>P(\hat{B}|C)。P(x|C)表示小孩更像谁，x\in[A,\hat{A},B,\hat{B}]。

使用似然评估，就可以断定小孩更像谁：