箱型图和小提琴图基本使用和解释

您所在的位置:网站首页 学小提琴具备什么条件 箱型图和小提琴图基本使用和解释

箱型图和小提琴图基本使用和解释

2024-07-14 07:45| 来源: 网络整理| 查看: 265

箱型图和小提琴图都是数据可视化工具,用于展示数据的分布情况和统计信息,尤其是在比较不同组或变量之间的数据分布时非常有用。下面是它们的基本使用和如何解释的一些指导:

箱型图 (Box Plot):

中位数 (Median):箱型图中的水平线表示数据的中位数,即数据的中间值。

上四分位数 (Upper Quartile, Q3) 和 下四分位数 (Lower Quartile, Q1):箱型图的箱体部分代表数据的25% 到 75% 范围,也就是数据的中间50%。箱体的上边界是Q3,下边界是Q1。

箱体长度 (IQR, Interquartile Range):IQR表示Q3和Q1之间的范围,用于度量数据的分散度。

异常值 (Outliers):箱型图中的小圆点或星号表示可能存在的异常值,即与数据的中心足够远的数据点。异常值通常定义为小于Q1 - 1.5 * IQR或大于Q3 + 1.5 * IQR的数据点。

箱型图的须 (Whiskers):箱型图的上须和下须通常是指从箱体边界到最大和最小非异常值的线段。

解释箱型图的一般步骤:

数据的中位数是箱体中的横线。箱体表示数据的中间50%。须表示数据的范围,排除了异常值。异常值是位于须之外的数据点。

小提琴图 (Violin Plot):

小提琴图与箱型图相比,提供了更多信息和更丰富的数据分布展示。

宽度 (Width):小提琴图的宽度在不同数据值上变化,反映了在该位置上的数据密度。较宽的部分表示数据更密集,而较窄的部分表示数据较稀疏。

内部小提琴 (Inner Violin):内部小提琴包括了数据的核密度估计,显示数据的主要分布。

外部形状 (Outer Shape):外部形状表示了数据的总体分布,可以帮助观察数据的模式和偏斜。

解释小提琴图的一般步骤:

小提琴图的宽度表示数据密度的变化。内部小提琴反映主要的数据分布,通常是数据的核密度估计。外部形状提供了总体数据分布的视觉信息。

在比较箱型图和小提琴图时,箱型图更适合查看数据的总体分布和异常值,而小提琴图提供了更详细的分布信息和密度估计。选择使用哪种图表取决于您关心的数据方面以及需要传达的信息。

让我们通过一个示例来解释箱型图和小提琴图,以展示它们的用途和如何解释它们。

示例:考虑一个班级的学生成绩数据,我们想要比较不同性别学生的成绩分布。

首先,让我们生成一些模拟数据:

import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 创建模拟数据 np.random.seed(2) n_students = 200 male_scores = np.random.normal(70, 10, n_students) female_scores = np.random.normal(75, 8, n_students) data = pd.DataFrame({'Gender': ['Male'] * n_students + ['Female'] * n_students, 'Score': np.concatenate((male_scores, female_scores)) }) # 使用 Pandas 对 data 进行分组 grouped_data = data.groupby('Gender') # 获取 'Male' 组的最大值和最小值 max_score_male = grouped_data.get_group('Male')['Score'].max() min_score_male = grouped_data.get_group('Male')['Score'].min() # 获取 'Female' 组的最大值和最小值 max_score_female = grouped_data.get_group('Female')['Score'].max() min_score_female = grouped_data.get_group('Female')['Score'].min() # 打印结果 print("Max Score (Male):", max_score_male) print("Min Score (Male):", min_score_male) print("Max Score (Female):", max_score_female) print("Min Score (Female):", min_score_female) Max Score (Male): 111.086926238052 Min Score (Male): 43.405505436165114 Max Score (Female): 100.28772775636708 Min Score (Female): 54.95633494340484

现在,我们可以使用箱型图和小提琴图来比较不同性别学生的成绩分布。

箱型图示例:

plt.figure(figsize=(8, 6)) sns.boxplot(x='Gender', y='Score', data=data) plt.title('Box Plot of Scores by Gender') plt.show()

在这里插入图片描述

解释箱型图:

箱型图显示了两个箱体,一个代表男性学生,一个代表女性学生。箱体的中间线表示中位数。在此示例中,男性学生的中位数略低于女性学生的中位数。箱体的上下边界分别表示上四分位数(Q3)和下四分位数(Q1),用于显示中间50% 的数据。须表示数据的范围,排除了异常值。在箱型图中,没有异常值。

小提琴图示例:

plt.figure(figsize=(8, 6)) sns.violinplot(x='Gender', y='Score', data=data) plt.title('Violin Plot of Scores by Gender') plt.show()

在这里插入图片描述 下面是我处理过的图,是为了能直观比较两者的长短 在这里插入图片描述

解释小提琴图:

小提琴图显示了两个小提琴,一个代表男性学生,一个代表女性学生。小提琴的宽度表示在不同成绩水平上的数据密度。较宽的部分表示数据更密集,较窄的部分表示数据较稀疏。内部小提琴显示了主要的数据分布,通常是核密度估计。在此示例中,我们可以看到男性学生的成绩分布更宽,说明成绩分布的变化范围更大。外部形状提供了总体数据分布的信息。在此示例中,可以看到女性学生的成绩分布相对集中,而男性学生的成绩分布更广泛。

综上所述,箱型图和小提琴图都用于比较不同性别学生的成绩分布,但它们提供了不同层次的信息。箱型图更适合查看总体分布和异常值,而小提琴图提供了更详细的分布信息和数据密度估计。根据您的需求和所关心的信息,您可以选择使用适当的图表类型。

更多详细关于小提琴图的说明



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3