数据探索(数据特征分析)④

您所在的位置:网站首页 python数据分析常用函数 数据探索(数据特征分析)④

数据探索(数据特征分析)④

2023-08-18 04:18| 来源: 网络整理| 查看: 265

Python介绍、 Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置 python基础知识及数据分析工具安装及简单使用(Numpy/Scipy/Matplotlib/Pandas/StatsModels/Scikit-Learn/Keras/Gensim)) 数据探索(数据清洗)①——数据质量分析(对数据中的缺失值、异常值和一致性进行分析) 数据探索(数据清洗)②—Python对数据中的缺失值、异常值和一致性进行处理 数据探索(数据集成、数据变换、数据规约)③—Python对数据规范化、数据离散化、属性构造、主成分分析 降维 数据探索(数据特征分析)④—Python分布分析、对比分析、统计量分析、期性分析、贡献度分析、相关性分析 挖掘建模①—分类与预测 挖掘建模②—Python实现预测 挖掘建模③—聚类分析(包括相关性分析、雷达图等)及python实现 挖掘建模④—关联规则及Apriori算法案例与python实现 挖掘建模⑤—因子分析与python实现

数据探索(数据特征分析④)—Python分布分析、对比分析、统计量分析、期性分析、贡献度分析、相关性分析 数据特征分析分布分析定量数据的分布分析遵循的主要原则有实例Python实现代码实现 定性数据的分布分析 对比分析对比分析主要有以下两种形式:代码实现 统计量分析周期性分析贡献度分析相关性分析直接绘制散点图绘制散点图矩阵代码实现 计算相关系数代码实现 数据特征分析常用Python函数统计特征函数summeanvarstdcorrcovskew/kurtDescribecum系列函数rolling_系列 统计作图函数plotpiehistboxplotplot(logx = True) / plot(logy = True)plot(yerr = error)

数据特征分析

对数据进行质量分析以后,接下来就是对数据做特征分析。一般可通过绘制图表、计算某些特征量等手段进行数据的特征分析。

分布分析

分布分析能揭示数据的分布特征和分布类型,便于发现某些特大或特小的可疑值。对于定量数据,欲了解其分布形式,是对称的、还是非对称的,可做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况。

定量数据的分布分析

对于定量变量而言,做频率分布分析时选择“组数”和“组宽”是主要的问题,一般按照以下步骤:

求极差 : 极差 = 最大值 - 最小值决定组距与组数: 这里根据业务数据的含义,组数 = 极差/组距决定分点列出频率分布表绘制频率分布直方图 遵循的主要原则有 各组之间必须是相互排斥的各组必须将所有的数据包含在内各组的组宽最好相等 实例Python实现

在这里插入图片描述

第一步:求极差

第二步:分组 这里根据业务数据的含义,可取组距为10。

第三步:决定分点,如下表:

第四步:绘制频率分布直方图

第五步:绘制频率分布直方图

代码实现 import pandas as pd height = 'data/身高_无缺失.xls' # 餐饮数据 data = pd.read_excel(height, index_col=u'id') # 读取数据,指定“id”列为索引列 data = data.loc[(data['身高'] > 130) & (data['身高']


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3