高中数学/概率与统计/离散型随机变量的分布列及其数字特征 |
您所在的位置:网站首页 › 离散数学高中部分 › 高中数学/概率与统计/离散型随机变量的分布列及其数字特征 |
阅读指南[编辑]
我们可以将随机试验的结果看成一个变量,而相关的概率表达式就是该结果的函数。代表随机试验结果的变量就叫做随机变量(random variable)或译为随机变数。 如果随机变量的可能取值可以按一定的顺序一一列出,这样的变量就叫做离散型(discrete)随机变量。[1]
我们可以通过一个表格列出某个离散型随机变量所有可能取值及其相应概率,这样的表格叫做相应随机变量的概率分布列(probability distribution series)、概率分布或简称为分布列[1]。随机变量常用 X , Y , ξ , η {\displaystyle X,Y,\xi ,\eta } 等字母表示[4]。离散型随机变量的概率分布也可以通过分段函数表达式和图象展示的方法表示[4]。
随机的变量 ξ {\displaystyle \xi } 取值为a的概率,在有的教科书上采用圆括号记为 P ( ξ = a ) {\displaystyle P(\xi =a)} ,有的则采用花括号记为 P { ξ = a } {\displaystyle P\{\xi =a\}} 。使用哪种记法一般都没有问题。
回答:这是一个意义不大的问题,但是统计学里的确有专门的概念描述这种平凡无奇的分布,它描述的是几乎确定的事件。这样的分布被叫做“单点分布”或“(一维的)退化分布”(degenerate distribution)[5]。需要注意的是,由几何概率模型中的许多例子可知,概率为1的事件并不代表就是必然事件。 伯努利两点分布与二项分布[编辑]![]() 以雅各布·伯努利命名的伯努利试验(Bernoulli trial)是一种只有2种可能性的试验,由成功发生的概率p这一个参数唯一确定。[6]
如果随机变量的取值只有0和1这2个值,此时的概率分布叫做两点分布(two-point distribution)、0-1分布。由于这种分布来自于伯努利试验,它也叫做伯努利分布,其中随机变量X取1的概率也被叫做成功概率(probability of success)。[4] 在单次随机试验中,某事件可能发生,也可能不发生。在n次独立重复事件中这个事件发生的次数是一个随机变量,可记为 ξ {\displaystyle \xi } P ( X = ξ ) = C n k p k ( 1 − p ) n − k ( k ∈ Z , 0 ≤ k ≤ n ) {\displaystyle P(X=\xi )=\mathrm {C} _{n}^{k}p^{k}(1-p)^{n-k}\quad (k\in \mathbb {Z} ,0\leq k\leq n)} 。根据重复独立试验的概率知识,我们知道如果在单次试验中某事件发生的概率是p,那么在n次独立重复事件中这个事件恰好发生k次的概率是[1]:由于其中的各项刚好是二项展开公式中的各个项对应,所以也将其称为二项分布(binomial distribution),记作 ξ ∼ B ( n , p ) {\displaystyle \xi \sim B(n,p)} 几何分布[编辑] [1]。并记 b ( k ; n , p ) := C n k p k ( 1 − p ) n − k {\displaystyle b(k;n,p):=\mathrm {C} _{n}^{k}p^{k}(1-p)^{n-k}} [1]。沿用伯努利试验中的术语,其中的概率p仍叫做成功概率[4]。在独立重复试验中,某事件第一次发生时所作试验的次数也是一个随机变量,可以记为 ξ {\displaystyle \xi } 。例如“ ξ = k {\displaystyle \xi =k} ”表示在第k次独立重复试验时,事件才第一次发生,在之前k - 1次试验中都没有发生。如果把第k次试验时事件E发生记为 E k {\displaystyle E_{k}} ,不发生记为 E k ¯ {\displaystyle {\overline {E_{k}}}} ,且 P ( E k ) = p {\displaystyle P(E_{k})=p} ,则有[1]: P ( ξ = k ) = P ( E 1 ¯ ∩ E 2 ¯ ∩ ⋯ ∩ E k − 1 ¯ ∩ E k ¯ ) = P ( E 1 ¯ ) P ( E 2 ¯ ) ⋯ P ( E k − 1 ¯ P ( E k ¯ ) = p × p × ⋯ × p × ( 1 − p ) = p k − 1 ( 1 − p ) {\displaystyle {\begin{array}{l}P(\xi =k)=P({\overline {E_{1}}}\cap {\overline {E_{2}}}\cap \cdots \cap {\overline {E_{k-1}}}\cap {\overline {E_{k}}})\\=P({\overline {E_{1}}})P({\overline {E_{2}}})\cdots P({\overline {E_{k-1}}}P({\overline {E_{k}}})\\=p\times p\times \cdots \times p\times (1-p)\\=p^{k-1}(1-p)\end{array}}} 容易看出,此时的概率主要是随p的值呈几何式变化的。如果设某个随机变量代表在独立重复试验时第一次发生的概率,那么它的对应概率分布就叫做几何分布(geometric distribution)。[1] 超几何分布[编辑]在总共含有M件次品的N件产品中任取出n件,其中抽到的次品数记为X,则事件P{X=k}的概率为: P ( X = k ) = C M k C N − M n − k C N n ( k ∈ N , 0 ≤ k ≤ m i n { M , n } ) {\displaystyle P(X=k)={\frac {\mathrm {C} _{M}^{k}\mathrm {C} _{N-M}^{n-k}}{\mathrm {C} _{N}^{n}}}\quad (k\in \mathbb {N} ,0\leq k\leq \mathrm {min} \{M,n\})}我们将此情形中X的概率分布叫做超几何分布(hypergeometric distribution)。[4] 总体的数学期望[编辑]如果离散型随机变量 ξ {\displaystyle \xi } E ξ = x 1 p 1 + x 2 p 2 + ⋯ + x n p n + ⋯ {\displaystyle E\xi =x_{1}p_{1}+x_{2}p_{2}+\cdots +x_{n}p_{n}+\cdots } 的所有可能取值是 x 1 , x 2 , ⋯ , x n , ⋯ {\displaystyle x_{1},x_{2},\cdots ,x_{n},\cdots } ,并且取这些值的对应概率分别是 p 1 , p 2 , ⋯ , p n , ⋯ {\displaystyle p_{1},p_{2},\cdots ,p_{n},\cdots } ,那么我们将下列的量定义为为 ξ {\displaystyle \xi } 的数学期望(mathematical expectation)或简称为期望、平均值(mean)[8]:期望是一种按概率大小加权化的平均数,反应了离散型随机变量取值的平均水平。[9]
数学期望的概念起源于著名的点数分配问题。法国文人夏瓦列·德梅尔(Chevalier de Méré,1607年-1684年)曾向布莱兹‧帕斯卡(Blaise Pascal,1623年-1622年)询问有关在点数分配游戏中如何实现公平奖励的古老问题,而帕斯卡在与皮埃尔·德·费马(Pierre de Fermat,1607年-1665年)的书信讨论中逐渐萌生出数学期望的定义。
如果离散型随机变量 ξ {\displaystyle \xi } D ξ := p 1 ⋅ ( x 1 − E ξ ) 2 + p 2 ⋅ ( x 2 − E ξ ) 2 + ⋯ + p n ⋅ ( x n − E ξ ) 2 + ⋯ {\displaystyle D\xi :=p_{1}\cdot (x_{1}-E\xi )^{2}+p_{2}\cdot (x_{2}-E\xi )^{2}+\cdots +p_{n}\cdot (x_{n}-E\xi )^{2}+\cdots } 的所有可能取值是 x 1 , x 2 , ⋯ , x n , ⋯ {\displaystyle x_{1},x_{2},\cdots ,x_{n},\cdots } ,并且取这些值的对应概率分别是 p 1 , p 2 , ⋯ , p n , ⋯ {\displaystyle p_{1},p_{2},\cdots ,p_{n},\cdots } ,那么我们将下列的量定义为随机变量的方差(variance)[8]:随机变量X的方差有时也记作 V a r ( X ) {\displaystyle Var(X)} [10]。随机变量方差的算术平方根 D ξ {\displaystyle {\sqrt {D\xi }}} 叫做标准差(standard deviation),记作 σ ξ {\displaystyle \sigma \xi } [8]。方差和标准差都反应了随机变量取值的波动大小,或者说反应了其分散程度[8]。当均值不为零时,标准差与均值的比值也叫做变异系数(coefficient of variation),是以均值为单位来衡量的随机变量的偏离情况[11]。
其它可以从整体上描述一个概率分布的常用统计量包括最大值、最小值、极差、中位数、众数、四分位数、代数平均数(即加权平均数)、几何平均数以及马上要介绍的调和平均数。 若a, b > 0,那么我们定义其调和平均数(harmonic mean)m为 1 m = 1 a + 1 b {\displaystyle {\frac {1}{m}}={\frac {1}{a}}+{\frac {1}{b}}} 。
上述统计量都是从早期的朴素统计方法中借鉴而来的,都被称为描述概率分布的数字特征。概率论与统计学后来在发展中相互促进,又诞生了数理统计学[12]。在数理统计学中,众数、中位数、多种平均数都能描述数据的某种居中特性,所以都被视为更一般意义上的平均数;极差、方差和标准差则不同程度地刻画了数据的偏离程度,被称为变异数或差异数(variance)[13]。更准确地说,平均数和差异数在统计学中都被称为“矩”(moment)或“动差”,具有一个形式上更统一的表达形式,而且它们正好构成矩的两大类。我们会在后面的抽样方法与对总体的估计章节更正式地介绍矩。 计算机技术辅助[编辑] Mathematica[编辑] Python[编辑] 补充习题[编辑]
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |