Appstore评分数据python实战

您所在的位置:网站首页 appstore评分标准 Appstore评分数据python实战

Appstore评分数据python实战

2023-06-30 06:24| 来源: 网络整理| 查看: 265

Appstore数据集中的主要字段: id:APP的编号id track_name:App名称 size_bytes:App的大小(单位:byte) price:价格(单位:美元) rating_count_tot:该App所有版本的用户评分数量 rating_count_ver:该App当前版本的用户评分数量 primae_genre:App类别 user_rating:该App所有版本的用户评分 user_rating_ver:该App当前版本的用户评分 sup_devices:支持的ios设备数量 ipadSc_urls:App提供的截屏展示数量 lang:支持的语言数量

要分析的业务问题: 1,免费或者收费的APP集中在哪些类别? 2,免费和收费的app在不同评分区间的分布情况如何? 3,app的大小和用户评分是否有关系?

打开python,开始敲代码 首先导入要用到的模块和打开数据集

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns get_ipython().run_line_magic('matplotlib', 'inline') df=pd.read_csv(r'applestore.csv') #打开数据

了解数据总体概括

df.head() #读取前5行的数据

在这里插入图片描述

df.describe()

在这里插入图片描述

df.info()

在这里插入图片描述 开始数据预处理 Unnamed: 0 为自动生成的记录ID,为无关变量,删除

df.drop(['Unnamed: 0'],axis=1,inplace=True) #drop(),axis=1代表在列中寻找,0则在行中寻找。inplace=True为在原表格进行删除,Fasle为创建副本,在副本里进行删除

size_bytes为App大小,单位为byte。为了计算方便,将其转化为MB单位。

df['size_mb']=df['size_bytes']/(1024*1024)

根据price价格新增标签,将app分为0(免费)和1(付费)

df['paid']=df['price'].apply(lambda x:1 if x>0 else 0)

然后用head()查看处理后的数据表情况 在这里插入图片描述

到这里,初步完成数据清洗和数据转换。 然后开始进行分析。

根据类别对App进行分组

#value_counts()只能对应series,不能对于整个dataframe进行操作 df.prime_genre.value_counts()

在这里插入图片描述 运行可知,Game类别中的App数量最多 然后根据价格对App进行分组

df.price.value_counts()

在这里插入图片描述 运行可知,免费的App数量最多。为了计算方便,取价格在0到49.99的记录进行接下来的分析。

#进行数据清洗。删除价格大于49.99的app df=df[df['price']


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3