【MATLAB数据分析】01数据的均值、变异度、偏度和峰度

您所在的位置:网站首页 spss峰度偏度图 【MATLAB数据分析】01数据的均值、变异度、偏度和峰度

【MATLAB数据分析】01数据的均值、变异度、偏度和峰度

2023-12-11 14:34| 来源: 网络整理| 查看: 265

引言

本文介绍了试验数据描述性统计分析中常用的均值、极差、方差、标准差、变异系数、偏度和峰度计算,并给出了MATLAB计算的函数。

文章目录 引言1 均值1.1 样本均值1.2 总体均值1.3 MATLAB编程-均值 2 变异度2.1 样本极差、方差、标准差、变异系数2.2 总体方差、标准差、变异系数2.3 MATLAB编程-极差、方差、标准差、变异系数 3 偏度3.1 样本偏度3.2 总体偏度3.3 MATLAB编程-偏度 4 峰度4.1 样本峰度4.2 总体峰度4.1 MATLAB编程-峰度 5.其他说明

设 n n n个观测值构成行向量 x \mathbf{x} x

x = [ x 1 , x 2 , ⋯   , x n ] \mathbf{x}=[x_1, x_2, \cdots, x_n] x=[x1​,x2​,⋯,xn​]

其中 n n n是样本容量。以下介绍均是样本的数字特征。和样本对应的数字特征是总体特征。

1 均值 1.1 样本均值

样本的样本均值即求数据的算术平均值:

x ‾ = 1 n ( x 1 + x 2 + ⋯ + x n ) = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n} (x_1+x_2+\cdots +x_n)=\frac{1}{n}\sum_{i=1}^nx_i x=n1​(x1​+x2​+⋯+xn​)=n1​i=1∑n​xi​

在分组样本场合,样本均值的近似公式为:

x ‾ = 1 k ( x 1 f 1 + x 2 f 2 + ⋯ + x k f k ) = 1 k ∑ i = 1 k x i f i \overline{x}=\frac{1}{k}(x_1f_1+x_2f_2+\cdots+x_kf_k)=\frac{1}{k}\sum_{i=1}^kx_if_i x=k1​(x1​f1​+x2​f2​+⋯+xk​fk​)=k1​i=1∑k​xi​fi​

其中, k k k是组数, x i x_i xi​是第 i i i组的组中数, f i f_i fi​是第 i i i组的频数。

均值表现了数据的集中位置。

1.2 总体均值

总体均值即为总体数据的数学期望:

μ = E ( x ) \mu=E(x) μ=E(x)

1.3 MATLAB编程-均值

计算均值使用的是函数mean

xmean=mean(x);%均值 2 变异度 2.1 样本极差、方差、标准差、变异系数

刻画数据变异度的量有样本极差 R R R,她等于样本中最大值减去最小值,即 R = x m a x − x m i n R=x_{max}-x_{min} R=xmax​−xmin​

它可以刻画数据散布范围大小,但不能刻画数据在这个范围内散布的集中或离散程度。刻画数据集中或离散程度的程度应该用其中心位置 x ‾ \overline{x} x为度量标准。任一数据 x i x_i xi​和样本均值 x ‾ \overline{x} x的差称作 x i x_i xi​的偏差。可以计算出,样本中所有数据的偏差和是0:

∑ i = 1 n ( x i − x ‾ ) = ∑ i = 1 n x i − n x ‾ = 0 \sum_{i=1}^{n}(x_i-\overline{x})=\sum_{i=1}^nx_i-n\overline{x}=0 i=1∑n​(xi​−x)=i=1∑n​xi​−nx=0

因而,刻画所有数据的变异度常用样本方差 s 2 s^2 s2或样本标准差 s s s,可以表示为:

s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 s2=n−11​i=1∑n​(xi​−x)2

s = s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2} s=s2 ​=n−11​i=1∑n​(xi​−x)2 ​

方差的量纲和数据的量纲不一致,它是数据量纲的平方,而标准差的量纲和数据量纲一致。比较两个样本的变异度,由于单位不同或平均数不同,不能单纯地用标准差来比较,而是用一个相对的百分数变异数来比较,这就是变异系数,表示为:

C V = 100 × s x ‾ CV=100\times\frac{s}{\overline{x}} CV=100×xs​

用它可以对同一样本中的不同指标或不同样本中的同一指标进行比较,据 C V CV CV的大小可以对指标的变异程度排序。

2.2 总体方差、标准差、变异系数

总体方差计算公式为:

σ 2 = v a r ( x ) \sigma^2=var(x) σ2=var(x)

总体标准差计算公式为:

σ = v a r ( x ) \sigma=\sqrt{var(x)} σ=var(x) ​

总体变异系数计算公式为:

γ = σ μ \gamma=\frac{\sigma}{\mu} γ=μσ​

2.3 MATLAB编程-极差、方差、标准差、变异系数

计算极差用的是函数range

xrange=range(x);%极差

计算方差用的是函数var

xvar=var(x);%方差

计算标准差用的是函数std

xstd=std(x);%标准差

计算变异系数利用定义计算:

xcv=100*std(x)./mean(x);%变异系数 3 偏度 3.1 样本偏度

偏度用来刻画数据的偏态,对于样本数据,其样本偏度其计算公式(总体偏度的无偏估计)为:

g 1 = n ( n − 1 ) ( n − 2 ) s 3 ∑ i = 1 n ( x i − x ‾ ) 3 = n 2 u 3 ( n − 1 ) ( n − 2 ) s 3 g_1=\frac{n}{(n-1)(n-2)s^3}\sum_{i=1}^n(x_i-\overline{x})^3=\frac{n^2u_3}{(n-1)(n-2)s^3} g1​=(n−1)(n−2)s3n​i=1∑n​(xi​−x)3=(n−1)(n−2)s3n2u3​​

其中,s是标准差, u 3 = 1 n ∑ i = 1 n ( x i − x ‾ ) 3 u_3=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3 u3​=n1​∑i=1n​(xi​−x)3是样本的3阶中心矩。偏度是刻画数据对称性的指标:

数据关于均值对称偏度 g 1 = 0 g_1=0 g1​=0

数据关于均值不对称,右侧数据更分散(右尾长),偏度 g 1 > 0 g_1>0 g1​>0

数据关于均值不对称,左侧数据更分散(左尾长),偏度 g 1 < 0 g_10 g2​>0

数据分布较正态分布的尾部更加集中,两端极端数据更少(细尾),偏度 g 2 < 0 g_2



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3