数据分析

2024-06-21 11:07| 来源: 网络整理| 查看: 265

文章目录 1.读取本的数据集2.查看数据的前5行3.将salary列的数据转换为最大值和最小值的平均值4.将数据根据学历进行分组计算平均值5.将createTime列转换为月日6.查看所索引，数据类型和内存信息7.查看数值型列的汇总统计8.新增一列根据salary将数据分为三组9.按照salary列队数据降序排序10.取出第33行的数据

1.读取本的数据集 # 读取本地的数据集 # 数据集可以私信我我发给你们，同样也可以 df = pd.read_excel('data1.xlsx') df

在这里插入图片描述

2.查看数据的前5行

使用head()函数查看数据的前几行，可以传入具体的数，默认是5

# 查看数据的前5行 df.head()

在这里插入图片描述

3.将salary列的数据转换为最大值和最小值的平均值

map和apply函数接受的参数都是一个行数，而且都不会直接改变原数据，都是返回一个新的DataFrame对象

# 将salary列数据转换为最大值和最小值的平均值 # 方式一使用map函数 def fun(x): a,b = x.split('-') a = int(a.strip('k'))*1000 b = int(b.strip('k'))*1000 return int((a+b)/2) df['salary'].map(fun) # 方式二使用apply函数 df['salary'] = df['salary'].apply(fun) df 4.将数据根据学历进行分组计算平均值

使用groupby()函数进行分组

# 将数据根据学历进行分组并计算平均值 df.groupby('education').mean()

在这里插入图片描述

5.将createTime列转换为月日 # 将create Time列转换为月日 for i in range(len(df)): df.iloc[i,0] = df.iloc[i,0].to_pydatetime().strftime('%m-%d') df.head()

在这里插入图片描述

6.查看所索引，数据类型和内存信息

info()函数

# 查看索引，数据类型，和内存信息 df.info()

在这里插入图片描述

7.查看数值型列的汇总统计

describe() 返回的数据包括，数量，数据的平均值，标准差，最小值，最大值，25%、50% 75 % 的分位数

# 查看数值型列的汇总统计 df.describe()

在这里插入图片描述

8.新增一列根据salary将数据分为三组 # 新增一列根据salary将数据分为三组，并且设置等级 bins = [0,5000,20000,50000] group_names = ['底','中','高'] df['categories'] = pd.cut(df['salary'],bins,labels=group_names) df

在这里插入图片描述