第三章总体均数的估计与假设检验（1）

您所在的位置：网站首页 › 在样本均数与已知总体均数 › 第三章总体均数的估计与假设检验（1）

第三章总体均数的估计与假设检验（1）

2023-11-04 21:06| 来源: 网络整理| 查看: 265

均数的抽样误差与标准误

统计推断（statistical inference)：从总体中随机抽取一个或多个样本，通过样本信息了解总体特征。由于存在个体差异，样本均数的值往往不太可能恰好等于总体均数，因此通过样本推断总体会有误差。抽样误差（sampling error):这种由个体变异产生、随机抽样造成的样本统计量（statistic）与总体参数(parameter)的差异、来自同一总体的若干样本统计量之间的差异。抽样误差不可避免但具有一定规律性。

样本均数的分布

样本均数的抽样分布具有如下特点： 1.各样本均数未必等于总体均数； 2.各样本均数间存在差异； 3.样本均数的频数分布具有规律性，围绕着总体均数上下波动，中间多两边少，左右基本对称； 4.样本均数间相差较小，其变异范较之原变量的变异范围大大缩小。样本均数的分布

标准误

样本均数的总体均数也就是原总体均数u;而样本均数的标准差比原个体值的标准差要小，样本均数的标准差叫做标准误(standard error,SE)。标准误越大，样本均数的分布越分散，样本均数与总体均数的差别越大，抽样误差越大，由样本均数估计总体均数的可靠性越小；反之，标准误越小，样本均数的分布越集中，样本均数与总体均数的差别越小，抽样误差越小。由样本均数估计总体均数的可靠性越大。在实际工作中，用样本标准差S来估计总体标准差。在这里插入图片描述由公式可知：均数标准误与标准差成正比，而与样本含量n的算数平方根成反比。即若标准差固定不变，可通过增加样本含量n来减小均数的标准误，从而降低抽样误差。注意：上述均数抽样误差的计算公式仅针对简单随机抽样，对于其他抽样方法有其对应公式，可参考相关文献。

t分布 t分布的概念

若某一随机变量X服从总体均数为μ、总体标准差为σ的正态分布在这里插入图片描述则通过标准变换（(X-μ)/σ，也称Z变换）可将一般的正态分布转化为标准正态分布。即U分布（Z分布）。同理，若样本含量为n的样本均数服从正态分布则通过同样的标准变换可转换为标准正态分布，即U分布。在这里插入图片描述在实际工作中，由于总体标准差未知，用样本标准差估计，此时不再服从标准正态分布，数学上可以推导其服从t分布。即上公式中ν是自由度，在数学上指能够自由取值的变量个数。如有三变量X1,X2,X3，且规定X1+X2+X3 = 18，则能够自由取值的只有两个，故其自由度等于2，在统计学中自由度=n-m，式中n为计算某一统计量时用到的数据个数，m为计算该统计量时用到其他独立统计量的个数/或限制条件的个数。 t分布主要用于总体均数的区间估计和t检验。

t分布的图形与特征

t分布 1.钟形曲线，以0为中心的单峰分布，左右对称； 2.曲线形态取决于自由度的大小，自由度越小，t越分散，曲线的峰部越矮而尾部翘的越高； 3.当自由度趋于无穷时，t分布逼近标准正态分布，故标准正态分布是t分布的特例。

总体均数的估计置信区间的概念

参数估计是指用样本指标推断总体指标。参数估计有点估计（point estimation）和区间估计（interval estimation）两种方法。 1.点估计是用相应样本统计量直接作为其总体参数的估计值，方法简单，给未知总体参数估计了一个确定值，但未考虑抽样误差大小。 2.参数估计在考虑抽样误差的基础上，按预先给定的概率(1-α)，利用样本信息估计包含未知总体参数的一个范围。置信（可信）区间(confidence bound /confidence interval, CI) 置信（可信）度1-α(confidence level)，最常取双侧95% 置信（可信）限(confidence limit, CL) 置信（可信）下限(lower limit, L/L1)，上限(upper limit, U/L2)

总体均数置信区间的计算

1.单一总体均数的置信区间 (1) σ未知且 n 小(n≤60) ：按 t 分布。根据下面公式在这里插入图片描述可得总体均数的双侧1-α置信区间为同理，总体均数的单侧 1-α 置信区间

在这里插入图片描述 (2)σ 已知或 σ未知但 n 足够大(n>60) ：按 u/Z 分布 σ 已知： σ未知但 n 足够大(n>60) ： 2.两总体均数之差的置信区间双侧置信区间单侧置信区间

置信区间的含义

置信区间：从总体中进行固定样本含量的重复随机抽样，根据每个样本可算得一个置信区间，则平均有（如95%）的置信区间包含了总体参数，而不是总体参数落在该区间的可能性为1-α 。但在实际工作中，通常只根据一次抽样结果估计置信区间。可认为该区间包含了总体均数μ，因为α=0.05是小概率，根据小概率事件不太可能在一次试验中发生的原理，可认为结论“该置信区间包含了总体均数μ”成立，但发生错误的概率为0.05。评价置信区间的两个要素： (1)置信度1-α，大好。反映准确度。(2)区间宽度，窄好。反映精度。注意：不能笼统的认为99%置信区间比95%置信区间好，当样本含量固定时，提高置信度，置信区间会变宽。在置信度确定的情况下，增加样本含量可减小区间宽度。

总体均数置信区间与参考值范围的区别

在这里插入图片描述

假设检验的基本原理和步骤

从总体中随机抽样，由样本信息推断总体特征，除前面所讲的参数估计外，在实际应用中还会遇到这样的问题：某一样本均数是否来自某已知均数的总体，两个不同样本均数是否来自均数不相同的总体等等。这种问题更多是在用统计推断的另一方面—假设检验来解决。

假设检验的基本原理

例3.5某医生测量了36名从事铅作业男性工人的血红蛋白含量，算得其均数为130.83g/L，标准差为25.74g/L。问从事铅作业男性工人的血红蛋白含量均数是否不等于正常成年男性的均数140g/L？部分展示36名男性工人血红蛋白含量本例可用下面图表示在这里插入图片描述小概率事件在一次抽样中不会发生。但它发生了，就只能怀疑原假设μ=μ0不成立，认为其对立面μ≠μ0成立，该结论的正确性要冒着犯一定比例(如5%)错误的风险。

假设检验的基本步骤

1.建立检验假设，确定检验水准（1）μ=μ0：即检验假设（hypothesis uner test/to be tested)，常称无效假设或零/原假设（null hypothesis），用H0表示。（2）μ≠μ0：即H0的对立假设，常称备择假设（alternative hypothesis），用H1或HA表示在建立检验假设时应注意： ①检验假设是针对总体而言，而不是针对样本。 ②虽然检验假设主要是围绕H0进行的，但H0和H1是相互联系，对立的假设，后面的结论是根据H0和H1作出的，因此两者不是可有可无，而是缺一不可； ③ H0既然是无效假设，其假定应该是某两个(或多个)总体参数相等，或某两个总体参数之差等于0，或… … 无效，或某资料服从某一特定分布(如正态分布、Poisson分布)； ④ H1直接反映了检验的单双侧。一般认为双侧检验较稳妥，单侧检验较敏感；对有探索性质的预试验思路宽一些好，多用双侧检验。应在研究设计时，就根据专业知识来确定，不能在算得统计量后再加以选择。下面图说明单双侧检验的确定。在这里插入图片描述（3）检验水准（size of a test,α)，也称显著性水准（significance level）。即I型错误的概率大小，用α表示。在实际工作中常取α＝0.05。 2.计算检验统计量首先应考虑统计推断的目的、设计方案、变量或资料类型，方法的适用条件等。所有检验统计量(test statistic)都是在H0成立的前提条件下计算出来的。有的检验方法可直接计算 P 值而无需通过计算检验统计量的中间步骤。比如Fisher确切概率法。 3.3. 确定 P 值，作出推断结论从假设检验的整个逻辑推理过程可看出： P: 在H0成立的条件下，从已知总体随机抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率。P 为后验概率(事后概率)，并非H0成立的概率大小。 H0成立的概率应为：在这里插入图片描述根据计算出的检验统计量如t、u，查相应的界值表得概率P。注意：α: 预先规定的一个概率值。为先验概率(事先概率)。一般说来：推断结论=统计结论+专业结论统计结论必须和专业结论有机地相结合，才能得出恰如其分、符合客观实际的最终结论。若P≤α，按所取α水准，拒绝H0，接受H1，有统计学意义(统计结论)，可认为…不同(专业结论) 若P>α，按所取α水准，不拒绝H0，无统计学意义(统计结论)，还不能认为…不同或不等(专业结论)。注意：不拒绝H0不等于接受H0，虽然在逻辑上否定之否定为肯定，但是在统计上按检验水准不拒绝H0。 ①按逻辑学的观点：否定+否定=肯定；从反证法的推理：不拒绝H0≠接受H0；从决策论观点：可认为暂时接受它，或“阴性待诊”。 ②对H0只能说：拒绝(reject) / 不拒绝(not reject)；对H1只能说：接受(accept)。

【本文地址】

第三章总体均数的估计与假设检验（1）

第三章总体均数的估计与假设检验（1）

今日新闻

推荐新闻