条件概率 事物A独立发生的概率为 P(A),事物B独立发生的概率为 P(B),那么有: P(A|B)表示事物B发生之后事物A发生的概率; P(B|A)表示事物A发生之后事物B发生的概率; 全概率我们可以将公式写成全量的形式: B_k(k=1,2,3...,n)表示全量相互排斥且性质关联的事物,即: B_i\cap B_j=\oslash (空集), B_1\cup B_2 \cup .....B_i = \Omega (全集的子集)那么可以得到 P(A)=\sum_j^iP(B_j)P(A|B_j),这就是全概率公式。 全概率公式的意义在于:无法知道一个事物独立发生的概率,但是我们可以将其在各种条件下发生的概率进行累加获得。 全概率的例子例1,已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。一个人检测为阳性的概率是多少。 设P(A)=0.001表示发病率,则P(\bar{A} )=0.999表示不发病率。P(B)表示检测为阳性的概率。所以: P(B)=P(A)P(B|A) + P(\bar{A})P(B|\bar{A}),且P(B|A)=0.99,P(B|\bar{A})=0.05,所以 P(B)=0.001×0.99 + 0.999×0.05=0.05094例2,袋子中50个球,20个黄球,30个白球。2个人一次从袋中各获取一个球,且不放回,求第二个人取得黄球的概率。 P(A)=\frac{2}{5}表示第一个人取得黄球的概率,则P(\bar{A})=\frac{3}{5}。 B表示第二个人取得黄球的事件。有: P(B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})=\frac{2}{5}×\frac{19}{49}+\frac{3}{5}×\frac{20}{49}=\frac{2}{5}从另外一个角度说,无论前面的人抽了多少次,后面的人抽签总体概率是不变的。 例3,5张卡片上分别标记了1,2,3,4,5,每次取2张,连续取2次,取出后不放回。求第二次取出的卡片,比第一次取出的卡片大的概率。 A表示第二张牌大的事件。B_i,i\in[1,5]表示第一张抽到1到5的事件。 第一张抽到任何一张牌概率都是一样的,所以P(B_i)=\frac{1}{5}。 第一张牌抽到1时,第二张牌大的概率为P(A|B_1)=1。 第一张牌抽到2时,第二张牌大的概率为P(A|B_2)=\frac{3}{4}。 以此类推P(A|B_3)=\frac{2}{4},P(A|B_4)=\frac{1}{4},P(A|B_5)=0。所以: P(A)=\sum_{i=1}^{5}P(B_i)P(A|B_i)=\frac{1}{5}×1+\frac{1}{5}×\frac{3}{4}+\frac{1}{5}×\frac{2}{4}+\frac{1}{5}×\frac{1}{4}+\frac{1}{5}×0=\frac{1}{2}例4,甲袋有5只白球、7个红球,乙袋有4只白球、2只红球。任意取一个袋子,求从袋子取得白球的概率。 设A:获取的白球的事件,B:获得甲袋子的事件、\bar{B}:获取乙袋子。那么: P(A)=P(B)P(A|B)+P(\bar{B})P(A|\bar{B}) P(B)=P(\bar{B})=\frac{1}{2},P(A|B)=\frac{5}{12},P(A|\bar{B})=\frac{4}{6},所以: P(B)=\frac{1}{2}×\frac{5}{12}+\frac{1}{2}×\frac{4}{6}=\frac{13}{24}*贝叶斯公式 P(A|B)=P(A)×\frac{P(B|A)}{P(B)}贝叶斯公式的理解: 可以理解他是全概率公式的反向应用,他是求某个条件出现时某个事件发生的概率。定义如下: P(A)表示前置概率,表示当B事件未发生时A事件发生的概率。 P(A|B)为后置概率,表示B事件发生之后A事件发生的概率。 贝叶斯公式可以看做是事件B发生后对前置概率的修正,\frac{P(B|A)}{P(B)}是修正因子。沿用前面医学的例子: 例1,已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。一个人检测为阳性时候,他确切患病的几率是多少。 设P(A)=0.001表示发病率,则P(\bar{A} )=0.999表示不发病率。P(B|A)=0.99,P(B|\bar{A})=0.05。所以: P(A|B)=P(A)×\frac{P(B|A)}{P(B)},用全概率公式: P(A|B)=P(A)×\frac{P(B|A)}{P(A)P(B|A)+P(\bar{A})P(B|\bar{A})} P(A|B)=0.001×\frac{0.99}{0.001×0.99+0.999*0.05}\approx 0.01943=1.94\%从结论看,这个试剂挺不可靠的。 将贝叶斯公式的底部展开为全概率公式: P(A_k|B)=P(A_k)×\frac{P(B|A_k)}{\sum_{j=1}^nP(A_j)P(B|A_j)},j\in(0,n),A_j表示相互独立的事件。使用全概率公式展开之后有个很直观的发现:当我们考察某一个事件的条件概率时——事件 B发生之后 A_k发生的概率,需要将整个样本空间中其他概率事件也加入到其中来。 似然函数似然函数个人理解是一种更加“公式化”的条件概率表达式,因为他书写的形式和条件概率相比并没有太大区别—— P(x|\theta ),只是解读方式不同。这里的 x表示样本特征数据, \theta 表示模型参数。 如果 \theta 已知并且固定,那么表示这个是一个概率计算模型,表示:不同的样本 x在固定的模型参数 \theta的概率值。 如果 x已经并且固定,表示这是一个似然计算模型(统计模型),表示不同的样本用于求解模型参数 \theta。 极大似然估计按照前面似然函数 P(x|\theta)的介绍,似然函数可以看做 x是已知的, \theta是未知的,极大似然估计就是在已知 x的情况下求取 \theta 。 在现实的生产生活中也常常会遇到这样的问题。我们以及有了样本以及对应的标签(结论),如何根据这些样本来计算(推算)条件 \theta 是一件很困难的事情。而极大似然估计就是一个根据样本值 x和结论数据 P(x|\theta)计算条件参数 \theta 的过程。 总的来说,极大似然估计是一种参数估计算法。使用极大似然估计有一个很重要的先决条件——每一组样本都是独立的,并且有充分的训练样本。 先看看样本独立的判断公式: P(A,B)=P(A)×P(B),即2个事物同时发生的概率等于事物独立发生概率的乘积。 极大似然评估的公式及像这个公式。 设有一组样本 D=\{x_1,x_2,x_3...x_n\},所有样本的联合概率密度 P(D|\theta)称为相对于样本 \{x_1,x_2,x_3...x_n\}的似然函数。那么由独立判定公式推断出所有样本的概率为: l(\theta)=P(D|\theta)=P(x_i|\theta)=\prod_{i=1}^n P(x_i|\theta)。 设 \hat{\theta}是使得 l(\theta)取得最大值的 \theta 值,那么 \hat{\theta} 是 \theta 的极大似然估计量。可以使用下面的公式表示 \hat{\theta} 与 D的关系: \hat{\theta}=d(D)=D\{x_1,x_2,x_3...x_n\}, P(x|\hat{\theta})称为极大似然评估值。实际计算时,计算连乘比较麻烦,我们可以引入对数将其转换为一个求和的过程: L(\theta)=lnl(\theta)=\sum_i^nlnP(x_i|\theta),因为 lnxy=lnx+lny。 L(\theta)也称为对数似然函数。 如果 L(\theta)连续可微,那么可以使用导数为0求函数的凸点。即: \frac{d(L(\theta))}{d\theta} = 0。 将条件因子扩展为M个,即 P(x_i,\theta_j),i\in(0,n],j\in(0,m],则似然函数(对数似然函数变成): L(\theta_j)=\sum_{i=1}^n\ln P(x_i|\theta_j)此时每一个 \theta_j的求导变成一个求偏导数的过程: \frac{∂L(\theta_j)}{∂\theta_k} = \frac{∂\sum_{i=1}^n\ln P(x_i|\theta_j)}{∂\theta_k},每一个 \theta_j都要对 L(\theta_j)求导。 最大似然评估的案例最大似然评估计算最大似然评估(也称为极大似然评估)的用处是什么?首先可以将每个字眼拆解开来看。最大就是要找最大值,似然说明并不精确似乎就是这个值,评估指的是这是一个过程。 现实生活中的例子:2对夫妇 (A,\hat{A}) 和 (B,\hat{B}) 和一个小孩 C。从外观上看,小孩 C长相比较接近夫妇 (A,\hat{A}) ,有点像 B,不像 \hat{B} ,让你猜测 C是谁的小孩。思维正常一点的人肯定会说 C是 (A,\hat{A})的小孩,这本身就是一个自然而然的判断过程,用数学解释: 设P(A|C)>P(B|C),P(\hat{A}|C)>P(\hat{B}|C)。P(x|C)表示小孩更像谁,x\in[A,\hat{A},B,\hat{B}]。使用似然评估,就可以断定小孩更像谁: P(A|C)×P(\hat{A}|C) > P(B|C)×P(\hat{B}|C)。 参数&模型评估最大似然估计更多的应用是在有一定样本数据的情况下用于模型评估,更准确的说是模型中的参数评估。因为似然评估来自于概率独立判决公式—— P(A,B)=P(A)×P(B),所以要求用于评估的样本数据相互独立。 先说一个很直观的案例解释这个问题: 例1,从盒子里连续取球,已知取得红球的概率 P\in[0.1,0.5],求当P取何值时最有可能连续三次拿到红球。 只管上来说,肯定是概率越高取得红球的几率越高,所以不做推断也知道 P=0.5时拿到红球的几率更高。下面通过数学过程来说明这个问题。 设条件 Y_i=1,表示取得红球, Y_i=0表示没取得红球,所以用最大似然评估来计算参数得: l(\theta)=P(Y_1)×P(Y_2)×P(Y_3)=P^3,只管的看就知道取值0.5似然评估最大。
|