用python动手学统计学 |
您所在的位置:网站首页 › 用python动手学 › 用python动手学统计学 |
使用python进行描述统计:多变量
包含多个变量的数据叫做多变量数据。单变量和多变量的数据的处理是不同的。 3-2-1整洁数据整洁数据是指便于用于数据分析的表格形式的数据 具有以下4个性质: 1.每个单元格代表一个数值 2.每个变量构成一列 3.每项观察构成一列 4.每种类型的观察单元构成一个表格 数值↔单元格 变量↔列 观察↔行 鱼的种类鱼的体长A2A3A4B7B8B9列为变量名,只有鱼的种类和鱼的体长 A、B为数值,观察为每一行 3-2-2杂乱数据整洁数据以外的数据形式就是杂乱数据 3-2-3列联表(交叉分类表)所谓的列联表即由两个以上的变量交叉分类的频数分布表。 列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。 交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。 分店颜色销量大阪店蓝色13大阪店红色9东京店蓝色10东京店红色15这类数据形式称为列联表或交叉分类表 3-2-4多变量数据的管理导入pandas和scipy,并修改浮点数的打印精度 #用于数值计算的库 import pandas as pd import scipy as sp #设置浮点数打印精度-在pycharm没有办法用 # %precision 3 path = "D:\\【源码】用Python动手学统计学\\pystat-code-2021-01-25\\3-2-1-fish_multi.csv" fish_multi = pd.read_csv(path) print(fish_multi) # species length # 0 A 2 # 1 A 3 # 2 A 4 # 3 B 6 # 4 B 8 # 5 B 10 3-2-5求各分组的统计量利用gruopby函数的分组处理功能 平均值 group = fish_multi.groupby("species") print(group.mean()) # length # species # A 3.0 # B 8.0 每组的标准差 ```python print(group.std(ddof = 1)) # length # species # A 1.0 # B 2.0一次性求出每组的均值、标准差、四分位数等统计量 print(group.describe()) #一次性求出每组的均值、标准差、四分位数等统计量 # length # count mean std min 25% 50% 75% max # species # A 3.0 3.0 1.0 2.0 2.5 3.0 3.5 4.0 # B 3.0 8.0 2.0 6.0 7.0 8.0 9.0 10.0 3-2-6列联表读入数据化为列联表 读入数据 import pandas as pd import numpy as np path = "D:\\【源码】用Python动手学统计学\\pystat-code-2021-01-25\\3-2-2-shoes.csv" shoes = pd.read_csv(path) print(shoes) # store color sales # 0 tokyo blue 10 # 1 tokyo red 15 # 2 osaka blue 13 # 3 osaka red 9pivot_table实现多种统计功能 cross = pd.pivot_table( data=shoes,#指定数据 values="sales",#统计的对象 aggfunc="sum",#统计所用的函数 index="store",#行 columns="color"#列 ) print(cross) # color blue red # store # osaka 13 9 # tokyo 10 15 3-2-7协方差研究两个连续变量之间的关系时使用的统计量叫做协方差 Cov(x,y)情况>0一个变量取值越大,另一个变量取值也越大=0两个变量不相关 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |