插值法补齐缺失数据

您所在的位置:网站首页 excel插值法补齐缺失数据 插值法补齐缺失数据

插值法补齐缺失数据

#插值法补齐缺失数据| 来源: 网络整理| 查看: 265

数据预处理的过程包括数据清洗、数据集成、数据变换和规约。获取到数据后的第一步,是要进行数据清洗,主要是删除原始数据集中的无关数据,重复数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。

缺失值处理

缺失值处理的方法可以分为三类:删除记录、数据插补和不处理。

删除记录,如果记录是空行,可以在读取数据之前通过Pandas来过滤:

df.dropna(how='all',inplace=True) # 删除全空的行

数据中是否存在重复记录。如果存在重复记录,就使用 Pandas 提供的 drop_duplicates() 来删除重复数据。

df.drop_duplicates(how='all',inplace=True) # 删除重复数据行

常见的插补方法如下:

插补方法 方法描述 均值/中位数/众数插补 根据属性值的类型,用该属性取值的均值/中位数/众数插补 使用固定值 将缺失值用常量替换 最近临插补 在记录中找到与缺失样本最接近的样本的该属性值插补 回归方法


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3