插值法补齐缺失数据 |
您所在的位置:网站首页 › excel插值法补齐缺失数据 › 插值法补齐缺失数据 |
数据预处理的过程包括数据清洗、数据集成、数据变换和规约。获取到数据后的第一步,是要进行数据清洗,主要是删除原始数据集中的无关数据,重复数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。 缺失值处理缺失值处理的方法可以分为三类:删除记录、数据插补和不处理。 删除记录,如果记录是空行,可以在读取数据之前通过Pandas来过滤: df.dropna(how='all',inplace=True) # 删除全空的行数据中是否存在重复记录。如果存在重复记录,就使用 Pandas 提供的 drop_duplicates() 来删除重复数据。 df.drop_duplicates(how='all',inplace=True) # 删除重复数据行常见的插补方法如下: 插补方法 方法描述 均值/中位数/众数插补 根据属性值的类型,用该属性取值的均值/中位数/众数插补 使用固定值 将缺失值用常量替换 最近临插补 在记录中找到与缺失样本最接近的样本的该属性值插补 回归方法 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |