概率论与数理统计基础知识 |
您所在的位置:网站首页 › 概率论求概率密度例题ppt › 概率论与数理统计基础知识 |
本博客为《概率论与数理统计--茆诗松(第二版)》阅读笔记,记录下来,以便自用。 前置知识 数学符号连乘符号: 随机事件:随机现象某些基本结果组成的集合,称为随机事件,简称事件。事件的关系:包含(A 两个事件的独立性:对任意两个事件 A与B,若有 P(AB)=P(A)P(B),则称事件A与B相互独立简称A与B独立。否则称事件A与B不独立。 多个事件的独立性: ![]() 条件概率的一般定义如下:(P(A)与P(A|B)不同,本质上是事件B的发生,改变了基本空间,从而改变了P(A)) ![]() 条件概率的性质: 条件概率是概率,首先满足概率的三条公理: 非负性:P(A|B)≥0 正则性:P(Ω|B)=1 可加性:假如事件A1与A2互不相容,且P(B)>0,则: 由三条公理,可推出满足以下性质:
当B=Ω时,条件概率转化为无条件概率。 特殊性质: 乘法公式:任意两个事件的交的概率等于一事件的概率乘以在这事件已发生条件下另一事件的条件概率,只要它们的概率都不为零即可。第一个等式成立要求P(B)>0,第二个等式成立要求P(A)>0 假如事件A与B独立,且P(B)>0,则有: 一般乘法公式: ![]() ![]() ![]() 贝叶斯公式(由全概率公式推出):意思就是 ![]() 或者由 随机变量分为:离散随机变量、连续随机变量 累积概率分布函数(CDF)![]() 离散、连续随机变量都有各自的分布函数。 分布函数F(x)的基本性质: ![]() 离散随机变量常用分布列来表示概率分布(分布列还有两种图表示方法:线条图与概率直方图): ![]() 常见的离散分布有:二项分布、泊松分布等 2.2.2 二项分布贝努里实验:只有两个结果(成功与失败)的试验。 n重贝努里实验:由n次相同的、独立的贝怒里试验组成的随机试验称为n重贝努里实验。设X为n重贝努里实验成功的次数,则随机变量X可能取值为:0,1,…,n,其概率分布为: ![]() 在概率论中,称随机变量X服从二项分布 b(n, p) , 并记作 若随机变量服从泊松分布,即 ![]() 泊松分布 连续随机变量不能再用分布列来表示,而要改用概率密度函数(就是连续的概率曲线),数学定义如下: ![]() 连续随机变量的分布函数F(x)可以用其密度函数p(x)表示出来: ![]() 连续随机变量:分布函数F(x)是密度函数p(x)的积分,密度函数p(x)是分布函数F(x)的求导 2.3.2 连续随机变量的数学期望:![]() 数学期望E(X)的总结: ![]() 正态分布: 伽马分布: 伽马函数: 伽马分布的密度函数: ![]() a>0,称为形状参数;λ>0,称为尺度参数。 伽马分布的数学期望: ![]() 形状参数a=1的伽马分布 贝塔分布: 若随机变量 在区间(0,1)上的均匀分布是贝塔分布 ![]() ![]() 在概率论和统计学中,数学期望E(X)是分布的位置特征数,它总位于分布的中心,随机变量X的取值总在其周围波动。 方差是度量随机变量X和其数学期望(E(X),即均值)之间的偏离程度( 称X-E(X)为偏差)的特征数,即度量随机变量X的离散程度,定义如下: ![]() 切比雪夫不等式对连续和离散两类随机变量都成立,定义如下: ![]() 在有些随机现象中,每个基本结果w只用一个随机变量 多维随机变量的概率分布可以用联合分布函数来表示,定义如下: ![]() 对于联合分布函数 ![]() 对于多维连续随机变量(以二维为例),其联合分布函数如下: ![]() 连续随机变量的条件分布:(X,Y)是二维连续随机变量,p(x,y)是其联合密度函数, ![]() ![]() 用一个变量的分布与这个变量给定下另一个变量的条件分布可给出联合分布: ![]() 假如能获得X的密度函数 ![]() 将上面两个式子进行合并 ,可得贝叶斯公式的密度函数形式如下,贝叶斯公式的离散形式已在第一章中讨论: ![]() 多维随机变量的数学期望与方差只利用其边缘分布所提供的信息,没有涉及诸个分量之间关系的信息。这里将提出一个新的特征数——协方差,它将能反映多维随机变量各分量间的关系。 X与Y的协方差是X的偏差与Y的偏差乘积的数学期望,定义如下: ![]() ![]() ![]() ![]() ![]() 两个随机变量之间的关系可分为独立和相依(即不独立),在相依中又可分为线性相依和非线性相依,由于非线性相依种类繁多,至今尚无实用指标来区分他们,但线性相依度可用线性相关系数来刻划,这一段将研究刻划两个变量之间线性相关程度的特征数:相关系数。 定义如下: ![]() 其实遵从的是最简单的条件,以下条件任意一条即可(参考):
相应的,pdf可以判定,cdf也可以判定,因为积分操作是线性的: 与其他变量的联合分布的边缘密度等于自己的概率密度,则相互独立。其对应条件概率 ![]() 容易看出,一阶原点矩就是数学期望,二阶中心矩就是方差。 特别低,样本的高阶矩定义如下: ![]() ![]() 样本的方差与标准差: ![]() ![]() 参数估计就是根据样本统计量的数值对总体参数进行估计的过程。θ是总体的一个待估参数,其一切可能取值构成的参数空间记为 参数的点估计,是要构造一个统计量 矩法估计的核心就是:用样本矩估计总体矩,用样本矩的相应函数估计总体矩的函数。(就是先用总体矩去构造一个表达所求参数θ的函数,然后用样本矩估计(代替)总体矩,计算参数θ) 具体的方法就是:通过计算样本 ![]() 计算例子如下: ![]() ![]() 矩法估计的优点是计算简单,且在总体分布未知场合也可使用。它的缺点是不唯一,譬如泊松分布 P(λ),由于其均值和方差都是λ,因而可以用 参数的点估计实质上是构造一个估计量去估计未知参数,上节讲的矩法估计是用各种矩去构造估计量的一种方法。自然也可以用其他估计量去估计,为此就需要有评价估计好坏的准则。 我们希望所得的估计 ![]() 对于θ的两个无偏估计,可以通过比较他们的方差来判断哪个更好,但对于有偏估计而言,比较方差意义不大,我们关心的是估计值围绕其真值波动的大小,因而引入均方误差准则: ![]() 即当估计是有偏估计时,用MSE来进行比较。 // TODO: 无偏估计这一块不是很明白 4.1.3 极大似然估计 概念 似然:概率是“参数变量Θ的值为θ时,随机变量X观测值为x的可能性”; 似然是“随机变量X观测值为x时,参数变量Θ的值为θ时的可能性“。二者描述的都是可能性大小,但是情况却不一样。似然函数在定义上为![]() ![]() 我们可以根据贝叶斯公式推出上面这个计算公式:
同理, 因为 也就是说,当随机变量观测值、参数相互对应的时候,似然和概率在数值上是相等的。 对于离散型随机变量,似然的计算如下: ![]() 对于连续型随机变量,似然的计算如下: ![]() 若已经定义好了一个深度学习模型但参数θ未知,对于一个输入的值 ![]() ![]() ![]() 直白来讲,极大似然估计就是使得目前观测值出现概率最大的θ值。其基本思想是在给定数据的情况下,通过最大化似然函数来估计概率分布或模型参数。 具体来说:对于给定的观测数据集合,假设这些数据来自于一个未知的概率分布或模型,MLE方法的目标是找到最优的模型参数,使得这个模型产生这些数据的概率最大。换句话说,就是寻找一个参数估计值,使得该参数下的观测数据出现的概率最大。 下面有个例子很好的对其进行解释: ![]() 下面以连续分布的情况为例,给出极大似然估计的定义: ![]() ![]() ![]() ![]() ![]() ![]() ![]() a.可以通过求导获得极大似然估计 当似然函数 为求导方便,常对似然函数 b.从定义出发直接求 当似然函数的非零区域与未知参数有关时,通常无法通过解似然方程来获得参数的极大似然估计,这时可从定义出发直接求 a.极大似然估计的不变原则 ![]() b.极大似然估计的渐近正态性 当样本量趋向于无穷大时,极大似然估计的分布接近于正态分布。这个结论是统计学中极为重要的一种性质,它可以用于构造置信区间和假设检验等。 具体来说,假设我们有一个来自某个分布的随机样本,样本量为 换句话说,如果我们有一个足够大的样本,那么我们可以使用极大似然估计来构造置信区间,置信区间的中心值是极大似然估计,置信区间的宽度则是标准误差的倍数,其中标准误差是 需要注意的是,这个结论只在一定条件下成立,例如样本必须是独立同分布的,并且极大似然估计的方差不能为零。此外,这个结论只是一个渐近结果,也就是说只有当样本量趋向于无穷大时才成立,对于小样本可能并不适用。 4.2 区间估计点估计虽能给出参数一个明确的数值,但是不能提供估计参数的估计误差大小(精度),点估计主要为许多定性研究提供一定的参考数据,或在对总体参数要求不精确时使用,而在需要用精确总体参数的数据进行决策时则很少使用。 置信区间是用来估计总体参数θ真实值的一个区间,其定义如下: ![]() 对于置信区间的理解,可以参考马同学的回答:https://www.zhihu.com/question/26419030?sort=created。对于置信区间,有以下需要强调: 置信区间要求估计量是个常数 置信区间是随机区间,总体的参数是固定的,变的是不同的观测样本计算出的置信区间。比如95%的置信区间,表示在1000次抽样中,计算得到的1000个置信区间,约有950个包含正确的参数。 4.2.1 正态分布的区间估计在区间估计中,当总体为正态分布时,常见的区间估计场景有以下几种: 方差已知,估计均值 方差未知,估计均值 均值未知,估计方差 总体思路就是根据正态分布的性质转化为标准正态分布,根据分为点求解区间即可。 4.2.2 非正态分布的区间估计对于非正态分布,可以使用中心极限定理,近似地使用上述结果 中心极限定理:设从任意一个总体中抽取样本量为N的样本,当N充分大时,样本均值的分布近似服从于正态分布。 4.3 贝叶斯估计 4.3.1 贝叶斯的由来 统计学中有两大学派: 频率学派(又称经典学派)和 贝叶斯学派,它们的理论与方法都建立在概率论基础上。以上的统计推断(点估计、区间估计)中,皆用到了两种信息: (1) 总体信息,即总体分布或总体所属分布族给我们的信息。 (2) 样本信息,即样本提供给我们的信息。这是最“新鲜”的信息,并且越多越好,希望通过样本对总体或总体的某些特征作出较精确的统计推断。没有样本就没有统计学可言。 基于总体、样本这两种信息进行统计推断的统计学就称为经典统计学。然而在我们周围还存在着第三种信息——先验信息,它也可用于统计推断。先验信息,即在抽样之前有关统计问题的一些信息。对先验信息进行加工获得的分布称为先验分布。 基于总体、样本、先验这三种信息进行统计推断的统计学称为贝叶斯统计学。贝叶斯统计学与经典统计学的差别就在于是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的质量。 贝叶斯统计起源于英国学者贝叶斯(Bayes,T.R. 1702(?)-1761)死后发表的一篇论文“论有关机遇问题的求解”,在此文中提出了著名的贝叶斯公式和一种归纳推理的方法, 之后, 被一些统计学家发展成一种系统的统计推断方法。到上世纪30年代已形成贝叶斯学派,到50~60年代已发展成一个有影响的统计学派,其影响还在日益扩大。 贝叶斯学派的最基本的观点是:任一未知量θ都可看作随机变量,可用一个概率分布去描述,这个分布称为先验分布。因为任一未知量都有不确定性,而在表述不确定性的程度时,概率与概率分布是最好的语言。 如今两派的争论焦点已从“未知量是否可看作随机变量”转换为“如何利用各种先验信息合理地确定先验分布”。 两个学派的区别如下:(参考:贝叶斯学派与频率学派有何不同?) (1)频率派把模型参数看成 未知的常量,用极大似然法MLE(一种参数点估计方法)求解参数,往往最后变成 最优化问题。这一分支又被称为统计学习。频率派认为概率是事物的固有属性,是一个确定的常量,它就在那里,只是我们暂时不知道而已,要估计出这个确定的概率,可以做重复实验并计算重复实验中事件发生的频率,用频率近似概率(依据是“大数定律”),样本量越大,这个近似就越好。 (2)贝叶斯派把模型参数看成 未知的变量(概率分布),用最大化后验概率MAP求解参数。贝叶斯派认为总体的未知参数是一个随机变量,它有自己的分布,把它叫做“先验分布”。贝叶斯学派就是利用先验分布和贝叶斯公式来得到后验分布,然后基于后验分布做进一步的统计推断。对于贝叶斯(先验概率、后验概率),更直白的解释(From ChatGPT): 贝叶斯是一种统计推断方法, 用于根据先验知识和新的数据来更新对某个事件的概率估计。其核心思想是在已知一些信息( 先验概率)的基础上,根据 新的数据来调整对事件的估计( 后验概率)。这个过程相当于“更新”我们对事件发生概率的估计。在贝叶斯方法中,我们可以通过多次更新概率估计,逐步得到更加准确的概率估计,从而提高预测的准确性。 在贝叶斯方法中,我们首先假设一个先验概率,即我们在得到新的数据之前对事件发生的概率的估计。然后,我们观察新的数据,并使用贝叶斯定理来计算事件发生的 后验概率,即已经考虑了新数据的影响之后的概率。贝叶斯方法的核心就是在先验概率的基础上,根据新数据的信息来计算后验概率。 先验概率是在考虑任何新数据之前,我们 基于以前的经验和知识所做出的对一个事件发生的概率的估计。它是根据以往的数据、先前的研究或领域知识等,通过推理或推断得到的概率估计值。 后验概率是指 在考虑了新数据之后,我们对事件发生的概率的重新估计。也就是说,通过贝叶斯定理将新数据结合到先验概率中,得到的新的概率值。后验概率是在已知先验概率和新数据的情况下,对事件发生概率的更精确的估计。 4.3.2 贝叶斯公式的密度函数形式 贝叶斯公式的事件(离散)形式为:![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() 在连续随机变量X的情况下,未知参数θ的贝叶斯公式密度函数的计算如下: 首先要根据先验信息确定先验分布 有了先验分布后,我们可以给出样本 X和参数θ的联合分布的一种表达: 来了新的数据 具体地是,联合分布也可以表示为: 其中 并且, 综述,给定新数据后,θ的后验分布为: 后验分布集中了总体、样本和先验中有关θ的一切信息。 ![]() 更具体地说,假设有一个参数 先验分布 似然函数 那么先验分布 常见的共轭先验分布包括:正态分布的共轭先验是共轭正态分布;二项分布的共轭先验是Beta分布;泊松分布的共轭先验是Gamma分布等等。 ![]() 共轭先验分布在贝叶斯统计中具有重要的作用,因为它们能够简化后验分布的计算过程。在贝叶斯统计中,我们通常会将数据看作是从一个未知参数 贝叶斯点估计:θ的后验分布的期望值称为θ的后验期望估计,也简称贝叶斯估计,常记为 贝叶斯区间估计:在贝叶斯统计中,区间估计是指给出一个后验分布的置信区间(credible interval),用来估计某个未知参数的真实取值。 ![]() |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |