统计学的实践指南: 掌握显著性水平与pvalue的使用

您所在的位置：网站首页 › pvalue小于显著性水平时 › 统计学的实践指南: 掌握显著性水平与pvalue的使用

统计学的实践指南: 掌握显著性水平与pvalue的使用

2024-07-11 19:15| 来源: 网络整理| 查看: 265

1.背景介绍

统计学是一门研究数字数据的科学，它主要关注数据的收集、分析、解释和预测。在现实生活中，统计学在许多领域得到了广泛应用，例如医学研究、经济学研究、社会科学研究、生物学研究等。在这些领域中，统计学被用于分析数据、测试假设、评估模型等。

在统计学中，显著性水平(significance level)和p值(p-value)是两个非常重要的概念，它们用于评估一个统计测试的结果。显著性水平是一个预设的阈值，用于判断一个结果是否可以被认为是有意义的。p值是一个实数，表示在接受某个 Null 假设(null hypothesis)为真的情况下，观察到的数据更极端(或更极端)的出现的概率。

在这篇文章中，我们将讨论以下几个方面：

背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细解释说明未来发展趋势与挑战附录常见问题与解答 2.核心概念与联系

在本节中，我们将介绍显著性水平和p值的核心概念，以及它们之间的联系。

2.1 显著性水平

显著性水平是一个预设的阈值，用于判断一个结果是否可以被认为是有意义的。通常，我们将显著性水平设为0.05(5%)或0.01(1%)。如果一个统计测试的 p 值小于显著性水平，则认为这个结果是有意义的，否则认为这个结果是无意义的。

显著性水平的选择是一个重要的问题，因为它会影响我们对结果的判断。通常，我们会根据问题的具体需求和领域的标准来选择显著性水平。

2.2 p值

p值是一个实数，表示在接受某个 Null 假设(null hypothesis)为真的情况下，观察到的数据更极端(或更极端)的出现的概率。换句话说，p值是一个随机变量，它表示在给定一个假设的情况下，数据更极端的出现的概率。

p值的计算方法取决于不同的统计测试。例如，在独立样本t检验中，p值的计算方法是：

$$ p = 2 \times \text{min} \left{ P\left( t \geq t{\text{obs}} \right), P\left( t \leq t{\text{obs}} \right) \right} $$

其中，$t{\text{obs}}$ 是观察到的 t 值，$P\left( t \geq t{\text{obs}} \right)$ 和 $P\left( t \leq t_{\text{obs}} \right)$ 分别表示在接受 Null 假设为真的情况下，数据更极端的出现的概率。

3.核心算法原理和具体操作步骤以及数学模型公式详细讲解

在本节中，我们将详细讲解核心算法原理和具体操作步骤，以及数学模型公式。

3.1 独立样本t检验

独立样本t检验是一种常用的统计测试方法，用于比较两个独立样本的均值。假设我们有两个独立样本，分别为 $X1, X2, \dots, Xn$ 和 $Y1, Y2, \dots, Ym$。我们想要测试它们的均值是否相等，即：

$$ H0: \mu1 = \mu_2 $$

$$ H1: \mu1 \neq \mu_2 $$

其中，$\mu1$ 和 $\mu2$ 分别是两个样本的均值。

3.1.1 算法原理

独立样本t检验的基本思想是：计算两个样本的均值和标准误，然后计算它们之间的 t 值，最后比较 t 值与预设的显著性水平。如果 t 值小于显著性水平，则接受 Null 假设，否则拒绝 Null 假设。

3.1.2 具体操作步骤计算两个样本的均值和标准误。

$$ \bar{x} = \frac{1}{n} \sum{i=1}^n xi $$

$$ \bar{y} = \frac{1}{m} \sum{j=1}^m yj $$

$$ s{\bar{x}} = \frac{sx}{\sqrt{n}} $$

$$ s{\bar{y}} = \frac{sy}{\sqrt{m}} $$

其中，$sx$ 和 $sy$ 分别是两个样本的标准差。

计算 t 值。

$$ t = \frac{\bar{x} - \bar{y}}{s_{\bar{x}} \sqrt{1 + \frac{1}{n} + \frac{1}{m}}} $$

比较 t 值与显著性水平。如果 t 值小于显著性水平，则接受 Null 假设，否则拒绝 Null 假设。 3.1.3 数学模型公式

在独立样本t检验中，我们需要计算 t 值的分布。假设 $X1, X2, \dots, Xn$ 和 $Y1, Y2, \dots, Ym$ 是两个独立样本，分别来自于均值为 $\mu1$ 和 $\mu2$ 的正态分布。那么，t 值的分布为：

$$ t = \frac{\bar{x} - \bar{y} - (\mu1 - \mu2)}{\sqrt{\frac{sx^2}{n} + \frac{sy^2}{m}}} $$

其中，$sx$ 和 $sy$ 分别是两个样本的标准差。

3.2 相关性检验

相关性检验是一种常用的统计测试方法，用于测试两个变量之间是否存在相关关系。假设我们有两个变量，分别为 $X$ 和 $Y$。我们想要测试它们之间是否存在相关关系，即：

$$ H_0: \rho = 0 $$

$$ H_1: \rho \neq 0 $$

其中，$\rho$ 是 Pearson 相关系数。

3.2.1 算法原理

相关性检验的基本思想是：计算两个变量的 Pearson 相关系数，然后比较 Pearson 相关系数与预设的显著性水平。如果 Pearson 相关系数小于显著性水平，则接受 Null 假设，否则拒绝 Null 假设。

3.2.2 具体操作步骤计算两个变量的 Pearson 相关系数。

$$ r = \frac{\sum{i=1}^n (xi - \bar{x})(yi - \bar{y})}{\sqrt{\sum{i=1}^n (xi - \bar{x})^2} \sqrt{\sum{i=1}^n (y_i - \bar{y})^2}} $$

其中，$\bar{x}$ 和 $\bar{y}$ 分别是两个变量的均值。

比较 Pearson 相关系数与显著性水平。如果 Pearson 相关系数小于显著性水平，则接受 Null 假设，否则拒绝 Null 假设。 3.2.3 数学模型公式

在相关性检验中，我们需要计算 Pearson 相关系数的分布。假设 $X1, X2, \dots, Xn$ 和 $Y1, Y2, \dots, Yn$ 是两个样本，分别来自于均值为 $\mux$ 和 $\muy$ 的正态分布。那么，Pearson 相关系数的分布为：

$$ r = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var}(Y)}} $$

其中，$\text{Cov}(X, Y)$ 是 $X$ 和 $Y$ 之间的协方差，$\text{Var}(X)$ 和 $\text{Var}(Y)$ 分别是 $X$ 和 $Y$ 的方差。

4.具体代码实例和详细解释说明

在本节中，我们将通过一个具体的代码实例来说明如何使用 Python 进行独立样本t检验和相关性检验。

4.1 独立样本t检验 4.1.1 数据准备

我们假设有两个独立样本，分别为 $X1, X2, \dots, Xn$ 和 $Y1, Y2, \dots, Ym$。我们的目标是测试它们的均值是否相等。

4.1.2 代码实现

```python import numpy as np from scipy.stats import ttest_ind

数据准备

X = np.array([1, 2, 3, 4, 5]) Y = np.array([2, 4, 6, 8, 10])

独立样本t检验

tstatistic, pvalue = ttestind(X, Y, equalvar=False)

输出结果

print("t 值:", tstatistic) print("p 值:", pvalue) ```

4.1.3 解释说明

在这个代码实例中，我们首先导入了 numpy 和 scipy.stats 库。然后，我们准备了两个样本数据 X 和 Y。接着，我们使用 ttest_ind 函数进行独立样本t检验，并获取到 t 值和 p 值。最后，我们输出了结果。

4.2 相关性检验 4.2.1 数据准备

我们假设有一个样本，分别为 $X1, X2, \dots, Xn$ 和 $Y1, Y2, \dots, Yn$。我们的目标是测试它们之间是否存在相关关系。

4.2.2 代码实现

```python import numpy as np from scipy.stats import pearsonr

数据准备

X = np.array([1, 2, 3, 4, 5]) Y = np.array([2, 4, 6, 8, 10])

统计学的实践指南: 掌握显著性水平与pvalue的使用

统计学的实践指南: 掌握显著性水平与pvalue的使用

今日新闻

推荐新闻