【数理统计】样本方差的分母为什么是n

您所在的位置:网站首页 均匀分布的方差为什么除以12等于10 【数理统计】样本方差的分母为什么是n

【数理统计】样本方差的分母为什么是n

2024-07-10 04:53| 来源: 网络整理| 查看: 265

        样本方差是基本统计学一个很难懂也很难教的概念。初学统计学的学生一开始就遇到这个概念,如果没学懂,很可能就对统计学丧失了信心或兴趣。这个概念难懂之处并不只在于它的意义或用处,更在于它的公式:

        这个公式的分子是所谓「差方和」(sum of squared deviations) , 还不算太难懂。真正难懂的地方是分母:如果要求 「平均差方」(mean squared deviations),应该把差方和除以n,为什么要除以n-1?

        一般老师对这个问题通常会回答说因为分子使用了样本平均数,失去了一个「自由度」(degrees of freedom),所以除以n-1。有的老师还会进一步说如果计算差方和使用的不是样本平均数而是母体平均数,则除以n即可。至于为何使用样本平均数会失去一个「自由度」,有点耐心的老师会解释:样本平均数是原来n个数算出来的,有了样本平均数,原来n个数就被「限制」住了,只有n-1个是「自由」的。学生听到这里常常满头雾水。他们会想:原来n个数不是已经知道了吗,说他们是「自由」究竟是什么意思?而且就算「自由度」的概念懂了,又为什么要把差方和除以自由度,除以n得到平均差方不是更直接了当吗?

        如果学生那样反问,没有耐心的老师可能会干脆说:当n很大的时候,其实除以n和除以n-1是差不多的,照着公式做就对了。

        学过数理统计学又超有耐心的老师则会说:这与统计推论有关,当我们用样本变化量来估计母体变化量时,为了避免估计上的偏差,必须要除以n-1。刚开始学基本统计学的学生听了当然毫无头绪,此时老师可能会说:你们以后去修数理统计学就会明白了,这个除以n-1而不是除以n的方法称作「贝索校正」(Bessel’s correction)。学生听到这里,大概也只好知难而退等以后再说了。

        不过诲人不倦的老师还会进一步说:其实这要看你用哪一种估计方法,如果你用「最大概似估计法」(MLE),除以n才是对的;有人选择「最小均方误差估计法」(MMSE)还除以n+1呢。说到这里,学生恐怕已经立即推了。

样本差异量的概念

        常见的差异量数有方差、标准差等,本文差异量主要指样本方差。

        首先,我们假设有一组n个数目的数据:x1, x2, …, xn,它们的样本平均数是x̅。

        差异量所要测量的是这一组数据彼此间差异的程度,它告诉我们数据的同构型或一致性。我们可以先想象这组数据全部相同的情况:数据彼此之间完全没有差异,也就是同构型高到不能再高了,一致性也大到不能再大了,此时变化量为0。如果数据彼此间差异极大,也就是同构型或一致性极低,此时差异量应极大。

        想象一个大联盟球队的球员,我们有这些球员上个球季打击率的数据。如果这些数据的差异量极小,这代表球员们打击能力大致相同,同构型极高;反之,如果差异量极大,则能力参差不齐,同构型低。再想象我们特别关注其中一位球员,我们有他参加大联盟以来每个球季的打击率。如果这些数据的差异量极小,这代表这球员每年打击表现的一致性极高;反之,如果差异量极大,则一致性低。

        然则为何差异量要用上面的公式计算?要算数据彼此间差异的程度,不是算出数目两两之间差异的总和或其平均值就好了吗?这样说虽然不无道理,但实际上大有问题。

        设想我们把数据中所有数按照其大小标在一条直线上,一共有n个点,则这些点两两之间一共会有C(n,2)个距离,例如n=3会有3个距离,n=4会有6个距离,n=5会有10个距离,等等。但这些距离并不是相互独立的,因为除了相邻两点之间的距离外,其它的距离都可以算出来。举例来说,若n=3而三点为x1



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3