概率密度函数、概率分布函数、常见概率分布 |
您所在的位置:网站首页 › 概率中的全概率公式有哪些 › 概率密度函数、概率分布函数、常见概率分布 |
1. 概率函数
概率函数,就是用函数的形式来表达概率。 p i = P ( X = a i ) ( i = 1 , 2 , 3 , 4 , 5 , 6 ) p_i=P(X=a_i)(i=1,2,3,4,5,6) pi=P(X=ai)(i=1,2,3,4,5,6) 在这个函数里,自变量(X)是随机变量的取值,因变量( p i p_i pi)是取值的概率。这就叫啥,这叫用数学语言来表示自然现象!它就代表了每个取值的概率,所以顺理成章的它就叫做了X的概率函数。 从公式上来看,概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。 2. 概率分布概率分布,就是概率的分布,这个概率分布还是讲概率的。我认为在理解这个概念时,关键不在于“概率”两个字,而在于“分布”这两个字。为了理解“分布”这个词,我们来看一张图。 举个例子吧,一颗6面的骰子,有1,2,3,4,5,6这6个取值,每个取值取到的概率都为1/6。那么你说这个列表是不是这个骰子取值的”概率分布“? 这么一说你就应该明白概率分布是个什么鬼了吧。 3. 分布函数说完概率分布,就该说说分布函数了。这个分布函数又是个简化版的东西!我真的很讨厌我们的教材中老是故弄玄虚,卖弄概念!你就老老实实的写成”概率分布函数“,让我们这些笨学生好理解一些不行吗? 看看下图中的分布律!这又是一个不统一叫法的丑恶典型!这里的分布律明明就是我们刚刚讲的“概率函数”,完全就是一个东西嘛!但是我知道很多教材就是叫分布律的。 概率函数和概率分布函数就像是一个硬币的两面,它们都只是描述概率的不同手段! 4. 概率密度函数概率密度函数是概率论中的核心概念之一,用于描述连续型随机变量所服从的概率分布。 4.1 从随机事件说起研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何! 回忆我们在学习概率论时的经历,随机事件是第一个核心的概念,它定义为可能发生也可能不发生的事件,因此是否发生具有随机性。例如,抛一枚硬币,可能正面朝上,也可能反面朝上,正面朝上或者反面朝上都是随机事件。掷骰子,1到6这6种点数都可能朝上,每种点数朝上,都是随机事件。 高中时我们学过集合的概念,并且知道整数集是z,实数集是R。对于有限集,可以统计集合中元素的数量即集合的基数(cardinal number,也称为集合的势cardinality)。对于无限集,元素的个数显然是无穷大,但是,都是无穷大,能不能分个三六九等呢? 回忆微积分中的极限,对于下面的极限: 虽然当x趋向于正无穷的时候,x和exp(x)都是无穷大,但它们是有级别的,在exp(x)面前,x是小巫见老巫。 同样的,对于整数集和实数集,也是有级别大小的。任意两个整数之间,如1与2之间,都密密麻麻的分布着无穷多个实数,而且,只要两个实数不相等,不管它们之间有多靠近,如0.0000001和0.0000002,在它们之间还有无穷多个实数。在数轴上,整数是离散的,而实数则是连续的,密密麻麻的布满整个数轴。因此,实数集的元素个数显然比整数要高一个级别。 4.3 随机变量变量是我们再熟悉不过的概念,它是指一个变化的量,可以取各种不同的值。随机变量可以看做是关联了概率值的变量,即变量取每个值有一定的概率。例如,你买彩票,最后的中奖金额x就是一个随机变量,它的取值有3种情况,以0.9的概率中0元,0.09的概率中100元,0.01的概率中1000元。变量的取值来自一个集合,可以是有限集,也可以是无限集。对于无限集,可以是离散的,也可以是连续的,前者对应于整数集,后者对应于实数集。 4.3.1 离散型随机变量随机变量是取值有多种可能并且取每个值都有一个概率的变量。它分为离散型和连续型两种,离散型随机变量的取值为有限个或者无限可列个(整数集是典型的无限可列),连续型随机变量的取值为无限不可列个(实数集是典型的无限不可列)。 把分布表推广到无限情况,就可以得到连续型随机变量的概率密度函数。此时,随机变量取每个具体的值的概率为0,但在落在每一点处的概率是有相对大小的,描述这个概念的,就是概率密度函数。你可以把这个想象成一个实心物体,在每一点处质量为0,但是有密度,即有相对质量大小。
两张图一对比,你就会发现,如果用右图中的面积来表示概率,利用图形就能很清楚的看出,哪些取值的概率更大!这样看起来是不是特别直观,特别爽!!所以,我们在表示连续型随机变量的概率时,用f(x)概率密度函数来表示,是非常好的! 但是,可能读者会有这样的问题: Q:概率密度函数在某一点的值有什么意义? A:比较容易理解的意义,某点的 概率密度函数 即为 概率在该点的变化率(或导数)。很容易误以为 该点概率密度值 为 概率值. 比如: 距离(概率)和速度(概率密度)的关系.某一点的速度, 不能以为是某一点的距离,没意义,因为距离是从XX到XX的概念,所以, 概率也需要有个区间. 这个区间可以是x的邻域(可以无限趋近于0)。对x邻域内的f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。 4.4 期望E(X)与方差Var(X)随机变量(Random Variable)X是一个映射,把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特这。 期望(Expectation, or expected value)是度量一个随机变量取值的集中位置或平均水平的最基本的数字特征; 方差(Variance)是表示随机变量取值的分散性的一个数字特征。 方差越大,说明随机变量的取值分布越不均匀,变化性越强;方差越小,说明随机变量的取值越趋近于均值,即期望值。
相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为: 1、有界性 相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。 2、统计意义 值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。
二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。 从定义可以看出,伯努利分布是二项分布在n=1时的特例
假定我们有一系列伯努利试验,其中每一个的成功概率为 p p p,失败概率为 q = 1 − p q=1-p q=1−p。在获得一次成功前要进行多次试验? 注意,这里的随机变量的概率分布就是一种几何分布。具体如下:
不同于几何分布描述的运行到第几次才成功,二项分布描述是的N次试验里有多少次成功。具体如下: 正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择: 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。
多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。 扔骰子是典型的多项式分布。扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有k次都是点数6朝上的概率就是 独立同分布(independent and identically distributed,i.i.d.)在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。 如果随机变量 X 1 X_1 X1 和 X 2 X_2 X2 独立,是指 X 1 X_1 X1的取值不影响 X 2 X_2 X2 的取值, X 2 X_2 X2 的取值也不影响 X 1 X_1 X1 的取值且随机变量 X 1 X_1 X1 和 X 2 X_2 X2 服从同一分布,这意味着 X 1 X_1 X1和 X 2 X_2 X2 具有相同的分布形状和相同的分布参数,对离随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。 示例——抛骰子 独立每次抽样之间是没有关系的,不会相互影响。 就像抛骰子每次抛到几就是几这就是独立的,但如果要两次抛的和大于8,其余的不算,那么第一次抛和第二次抛就不独立了,因为第二次抛的时候结果是和第一次相关的。 同分布每次抽样,样本都服从同样的一个分布。 抛骰子每次得到任意点数的概率都是1/6,这就是同分布的。但如果第一次抛一个6面的色子,第二次抛一个正12面体的色子,就不再是同分布了。 为什么需要满足i.i.d.假设?机器学习是利用当前获取到的信息(或数据)进行训练学习,用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上,采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性。 为什么要有总体代表性?我们要从已有的数据(经验)中总结出规律来对未知数据做决策,如果获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这些规律是由个例推算的,不具有推广的效果。 通过i.i.d.假设,就可以大大减小训练样本中个例的情形。 https://www.jianshu.com/p/b570b1ba92bb https://zhuanlan.zhihu.com/p/48140593 https://www.bookstack.cn/read/huaxiaozhuan-ai/spilt.4.6f06ed449f5ed789.md https://zhuanlan.zhihu.com/p/94181395 https://zhuanlan.zhihu.com/p/64859161 https://blog.csdn.net/touristman5/article/details/56281887 https://zhuanlan.zhihu.com/p/32932782 https://zhuanlan.zhihu.com/p/52530189 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |