数据分析过程及可视化报告

您所在的位置:网站首页 服装数据分析总结怎么写 数据分析过程及可视化报告

数据分析过程及可视化报告

2024-04-17 23:40| 来源: 网络整理| 查看: 265

本文章主要用excel分析女性电子商务服装评论相关情况,由以下5部分构成。

一、提出问题

1、 想从该数据集中得到哪些描述统计信息?

a. 购买人年龄的平均值,上下界,中位数,四分位数,用箱线图直观显示。

b. 评分情况,1-5星好评占比情况

c. 评分、是否推荐这两项数据有无相关性

2、 想从该数据集中分析哪几个业务问题?

a. 哪个年龄段的人最喜欢网购衣服?

b. 哪类衣服好评最多/分数最低?

c. 哪类衣服最受推荐?

重点关注年龄,评分,是否推荐及类别字段。

二、理解数据

1、数据来源:https://www.datafountain.cn/dataSets/30/details,数据集大小包括23486行和10个特征变量。

2、字段含义:

ID编号(无特殊意义,可删除),

Clothing ID衣服编号(类似身份证,有1206个,剔除空值),

Age购买人年龄(18-99岁),

Title评论标题(字符串,有空值,不影响统计),

Review Text评论内容(字符串,有空值,不影响统计),

Rating几星好评(1-5星),

Recommended IND是否推荐(是为1,否为0),

Positive Feedback Count正反馈数量(认为该评价有用),类似淘宝评价的点赞数,

Division Name产品名称分类(分3类),

Department Name服饰分类(分6类),

Class Name服饰类别(分20类)。

三、数据清洗

1、选择子集

数据中A列,D列title标题,E列Review Text评论内容,对本次分析作用不大,暂时隐藏(尽量不要删除,以免后期需要),隐藏后数据集如下:

2、列名重命名

将列名重命名,由英文改为中文,容易理解,数据集如下:

3、删除重复值

全选数据集数据,删除重复值。发现有21个重复值,即21行数据重复,已删除。

4、缺失值处理

通过对每一列数据计数,发现数据总共为23466行(包含标题行)

其中,最后三列数据有空白值,计数仅为23452行,空白值有13行。

分别是72、492、152、184、772、665、136这7个衣服编号。逐一筛选发现这7个衣服编号仅存在空白值行里,其它行没有相关信息,本办法行不通。改为取消隐藏的评论两列,通过评论的内容来判断该产品属于什么类别。如下:

将关键信息标红,则清楚该产品是什么产品,如何分类。其中13780行评论虽为空白,但因为其衣服编号是492,同13761行一致。同理,16207行评论信息不明显,但因其衣服编号是152,与16212行一致。

通过评论区的关键字眼,将13行空白值补充好如下:

5、一致化处理

经筛选检验,数据比较一致,不需要进行额外操作。

6、数据排行

将数据按正反馈数量排行,结果如下:

7、异常值处理

暂无异常值。

至此,数据清洗环节告一段落。进入构建模型,即数据的分析环节。为方便使用数据透视表分析,先将数据集套用表格样式,如下:

四、构建模型

主要借助excel数据分析表工具,绘制相关表格及图形,以期得到相应的分析结果。

1、哪个年龄段的女性最喜欢网购衣服?

(1)网购者年龄描述统计分析

通过年龄一列的描述统计信息,可得知,本次女性电子服装网购者年龄最小为18岁,最大为99岁,平均值43岁,中位数为41岁。

(2)哪个年龄段的人喜欢网购?

数据分析表降序排列可看出,30-39岁的女性最喜欢网购衣服,销量占比32.76%,其次是40-49岁的女性,销量占比26.1%。20-60岁女性网购衣服的数量占比达到88%。

2、哪类衣服销量最好?

根据产品分类名称区分,General销量最好,为13840,占比58.98%,其次是General Petite,销量为8110,占比34.56%,销量最少是Initmates,占比6.46%。

按服饰类别(细分)统计,销量及占比如下:

其中,Tops,Dresses,Bottoms分别销售排前三,销量分别是10456, 6312, 3798,销量占比分别是44.56%,26.90%,16.19%。

3、哪些衣服编号销量最好?

衣服编号为1000-1099的衣服销量最高,为36.11%,其次是800-899的衣服销量占比为36.04%,销量最低为编号1200-1299的衣服。

4、衣服整体的好评情况

数据显示,55.87%的衣服获得5星好评,21.63%的衣服获得4星好评,获得1-2星好评的衣服数量仅占10.26%,说明该店铺整体衣服质量不错。

5、好评数与是否推荐的相关性

如图,4星、5星好评的衣服基本都获得了95%以上的推荐。3星好评推荐数仅为41.41%,1星好评推荐数仅为1.9%。说明好评数与是否推荐强相关。

6、哪类衣服评分最高

按照产品分类名称分,Initmates的好评数(平均得分)最高,为4.29,General的平均得分最低,为4.18。

按照服饰类别分,Bottoms和Intimate平均得分不相上下,为4.29,Trend平均得分较低,为3.82(这也可能和数据量较小有关系,毕竟trend系列销量只有119件,不比其他类别都是上千件)故暂不分析服饰类别(细分)的情况,可能会出现样本数太少,分析结果不具备太大意义。

7、探索该店的爆款服装?

五、总结建议



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3