统计学方法论2

您所在的位置:网站首页 统计学中分析方法有哪些 统计学方法论2

统计学方法论2

2024-07-10 12:48| 来源: 网络整理| 查看: 265

推断统计分析:通过样本推断总体 1、概述2、点估计和区间估计2.1、点估计2.2、区间估计2.2.1、中心极限定理2.2.2、正态分布特征(数据分布比例)==图很重要== 3、假设检验(反证法思想)(有很多假设检验方式)3.1、小概率事件3.2 P-Value与显著性水平3.3、假设检验的步骤 4、常用的假设检验4.1、Z检验4.2、t检验(更常用,因为一般总体方差都不知道)4.2.1、t检验原理及验证4.2.2、scipy提供的stats.ttest_lsamp方法计算t检验

注意学习方式,学习本部分是为数据分析铺垫,不关注数学公式的推导,关注结果及代码验证 理解假设检验的方法,会看结果代表什么,计算可以调库实现

1、概述

总体、个体、样本

2、点估计和区间估计 2.1、点估计

点估计使用样本代替总体,易受到随机抽样的影响,无法保证结论的准确性

2.2、区间估计

置信度:总体参数有多大的概率位于置信区间 置信区间:均值±1/2/3倍标准差 使用置信区间与置信度,表示总体参数有多少可能(置信度)会在某范围(置信区间内)

2.2.1、中心极限定理

如果总体(是不是正态分布无所谓)均值为μ,方差为σ²,那我们进行随机抽样,样本容量为n,当n增大时,则样本均值逐渐趋近服从正态分布: 在这里插入图片描述 中心极限定理结论:

多次抽样,每次抽样计算出一个均值,这些均值会围绕在总体均值左右,呈正态分布

样本容量n足够大时,样本均值服从正态分布:

样本均值构成的正态分布,其均值等于总体的均值μ样本均值构成的正态分布,其标准差等于总体标准差σ/根号n

代码验证样本均值构成的正态分布:

#验证从总体中随机抽样n次,得到的样本均值分布是否为正态分布 test=np.random.normal(loc=10,scale=80,size=10000) mean_array=np.zeros(1000) for i in range(len(mean_array)): #注意此处replace为False代表本次抽样的过程64个是不能放回去的。本次抽样完成,进行下次抽样时这64个才放回去 mean_array[i]=np.random.choice(test,size=64,replace=False).mean() #1000次样本均值的均值 print(mean_array.mean()) #标准误差,简称标准误。为总体的标准差/根号n print(mean_array.std()) #注意skew需要pandas才能用 print(pd.Series(mean_array).skew()) sns.distplot(mean_array)

在这里插入图片描述

2.2.2、正态分布特征(数据分布比例)图很重要

正态分布的均值、中位数、众数相等 其数据分布如下:

以均值为中心,在一倍标准差内,包含68%的样本数据以均值为中心,在二倍标准差内,包含95%的样本数据以均值为中心,在三倍标准差内,包含99.7%的样本数据

在这里插入图片描述

#验证正态分布的数据分布概率 #标准差50 scale=50 test=np.random.normal(0,scale,size=100000) #分别计算一倍标准差,二倍及三倍下数据分布的概率 for i in range(1,4): test_scale=test[(test>(-i*scale))&(test


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3