用python动手学统计学

您所在的位置:网站首页 用python动手学 用python动手学统计学

用python动手学统计学

2024-07-11 14:19| 来源: 网络整理| 查看: 265

使用python进行描述统计:多变量

包含多个变量的数据叫做多变量数据。单变量和多变量的数据的处理是不同的。

3-2-1整洁数据

整洁数据是指便于用于数据分析的表格形式的数据 具有以下4个性质: 1.每个单元格代表一个数值 2.每个变量构成一列 3.每项观察构成一列 4.每种类型的观察单元构成一个表格 数值↔单元格 变量↔列 观察↔行

鱼的种类鱼的体长A2A3A4B7B8B9

列为变量名,只有鱼的种类和鱼的体长 A、B为数值,观察为每一行

3-2-2杂乱数据

整洁数据以外的数据形式就是杂乱数据

3-2-3列联表(交叉分类表)

所谓的列联表即由两个以上的变量交叉分类的频数分布表。 列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。 交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。

分店颜色销量大阪店蓝色13大阪店红色9东京店蓝色10东京店红色15

这类数据形式称为列联表或交叉分类表

3-2-4多变量数据的管理

导入pandas和scipy,并修改浮点数的打印精度

#用于数值计算的库 import pandas as pd import scipy as sp #设置浮点数打印精度-在pycharm没有办法用 # %precision 3 path = "D:\\【源码】用Python动手学统计学\\pystat-code-2021-01-25\\3-2-1-fish_multi.csv" fish_multi = pd.read_csv(path) print(fish_multi) # species length # 0 A 2 # 1 A 3 # 2 A 4 # 3 B 6 # 4 B 8 # 5 B 10 3-2-5求各分组的统计量

利用gruopby函数的分组处理功能 平均值

group = fish_multi.groupby("species") print(group.mean()) # length # species # A 3.0 # B 8.0 每组的标准差 ```python print(group.std(ddof = 1)) # length # species # A 1.0 # B 2.0

一次性求出每组的均值、标准差、四分位数等统计量

print(group.describe()) #一次性求出每组的均值、标准差、四分位数等统计量 # length # count mean std min 25% 50% 75% max # species # A 3.0 3.0 1.0 2.0 2.5 3.0 3.5 4.0 # B 3.0 8.0 2.0 6.0 7.0 8.0 9.0 10.0 3-2-6列联表

读入数据化为列联表 读入数据

import pandas as pd import numpy as np path = "D:\\【源码】用Python动手学统计学\\pystat-code-2021-01-25\\3-2-2-shoes.csv" shoes = pd.read_csv(path) print(shoes) # store color sales # 0 tokyo blue 10 # 1 tokyo red 15 # 2 osaka blue 13 # 3 osaka red 9

pivot_table实现多种统计功能

cross = pd.pivot_table( data=shoes,#指定数据 values="sales",#统计的对象 aggfunc="sum",#统计所用的函数 index="store",#行 columns="color"#列 ) print(cross) # color blue red # store # osaka 13 9 # tokyo 10 15 3-2-7协方差

研究两个连续变量之间的关系时使用的统计量叫做协方差

Cov(x,y)情况>0一个变量取值越大,另一个变量取值也越大=0两个变量不相关


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3