探索性数据分析EDA（一）

2024-02-23 23:52| 来源: 网络整理| 查看: 265

前言

探索性数据分析（Exploratory Data Analysis，EDA) 是学习数据分析、机器学习最开始的第一步。

在过去的学习中多少都有涉及到EDA的内容，但是一直都是零零散散，没有一个系统性概括性的笔记。这篇内容是基于A Comprehensive Guide to Data Exploration 翻译搬运过来。作者在文章中比较系统地概括了EDA的内容，十分适合初学者学习。除了原作者的内容，我还整合了自己的学习笔记、以及网上找到的学习资料。

这一系列笔记会根据处理步骤分成几篇，会在之后陆续更新：（一）变量识别与分析：讲解第1～3步骤；（二）缺失值处理：讲解第4步骤，包括缺失值的出现的原因及对应的处理方法；（三）异常值处理：讲解第5步骤，异常值的原因、如何找出并处理异常值；（四）特征工程：最后第6～7步骤，简略说明特征工程的概念和一些常用的方法。

PS：有任何翻译错误或内容补充，欢迎大家在评论区留言指出，欢迎一起讨论～

1.数据探索和预处理的步骤

处理步骤： 1）变量识别（Variable Identification） 2）单变量分析（Univariate Analysis） 3）双变量分析（Bi-variate Analysis） 4）缺失值处理（Missing values treatment） 5）异常值处理（Outlier treatment） 6）变量转换（Variable transformation） 7）变量构造（Variable creation）

1）变量识别（Variable Identification）

首先确认预测变量（Predictor）和目标变量（Target）是什么。预测变量也是Input，是用于分析建模的数据集，目标变量是Output，即最后的结果输出值。

例子：我们利用下面的例子来预测学生是否玩板球。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tgH9bQFB-1595997323200)(evernotecid://FC208A75-36D9-4612-B478-B8374AA007D6/appyinxiangcom/26051784/ENResource/p595)] 变量如下图： 1）变量类别（Type of Variable) ：预测变量是性别（gender)、之前考试成绩（Prev_Exam_Marks)、身高(Height)、体重（Weight）；目标变量是是否玩板球，这里用0和1代表是或否。 2）数据种类(Data Type)：字符数据（学生ID、性别）；数值数据（成绩、体重身高、玩板球） 3）变量类别(Variable Category)：

分类变量是说明事物类别的一个名称，其取值是分类数据。如“性别”就是一个分类变量，其变量值为“男”或“女”；“行业”也是一个分类变量，其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。连续变量在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的。这里的分类变量是性别、是否玩板球；连续变量是成绩、身高体重就是连续变量。在这里插入图片描述

2）单变量分析（Univariate Analysis）

单变量分析，即分析单个变量的基本特征，这里我们按照变量类别来分析。分析数据时，可以先从目标变量开始

2.1）连续型变量

数值特征（Numerical features）比如收入情况，降雨量等用数字表示的特征，一般情况下会在一定区间内分布。

箱型图、直方图

一般情况下需要看数据的中心趋势（central tendency）和分布情况（Spread）。可参考统计学中的描述性分析：常用的有平均数、中位数、众数、方差、峰值、偏度。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MFOY7Tw9-1595997323211)(evernotecid://FC208A75-36D9-4612-B478-B8374AA007D6/appyinxiangcom/26051784/ENResource/p597)]

2.2）分类型变量

也叫分类特征（Categorical features）。序数特征（Ordinal features）是分类特征中包含一定顺序的变量（如家属人数、教育程度、财产范围）

直方图、频率表

直方图是最简单常用的可视化方法。频率表可以用来理解每个类别的分布，还可以使用百分数来表现占比情况。

3）双变量分析（Bi-variate Analysis）

双变量分析，是为了找出两个变量之间的关系。变量可以有多种组合分析，比如连续型之间、分类型之间、分类变量和连续变量。PS：可以分析目标变量和各个特征之间的关系。

3.1）连续型变量之间散点图使用散点图分析两个变量之间是否相关。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-khFVtZU1-1595997323212)(evernotecid://FC208A75-36D9-4612-B478-B8374AA007D6/appyinxiangcom/26051784/ENResource/p598)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-khFVtZU1-1595997323212)(evernotecid://FC208A75-36D9-4612-B478-B8374AA007D6/appyinxiangcom/26051784/ENResource/p598)]

相关系数（Correlation）计算相关系数（Correlation），来确定变量之间的关系。公式：Correlation = Covariance(X,Y) / SQRT( Var(X)* Var(Y))相关系数等于1时，为正相关；等于0时表示没有相关性；等于-1时表示负相关 3.2）分类变量之间双向频率表（Two-way frequency table）

也还是常用的频率表，横轴一个特征，数周一个特征；计算每个类别下的频率和百分比。

加粗样式

堆积柱形图（Stacked Column Chart）显示数量（中间图）：可以看到每个分类的数量分布。显示百分比（最右侧图）：显示每个分类的百分比，可以看到每个分类对百分比的影响。在这里插入图片描述

卡方检验 Chi-Square Test

卡方检验可以用来检验变量之间是否有显著的关系；同时，它测试了变量中是否有足够有力的证据证明大的总体的关系。卡方检验师基于期望值和观察值在一个或多个类别的双向表中的频率不同，它返回了可能的卡方分布以及自由度。

P为0时，意味着两个类别变量是相互依赖的；P为1时，则为两个变量是独立的。P

【本文地址】

探索性数据分析EDA（一）

探索性数据分析EDA（一）

今日新闻

推荐新闻