数据挖掘

2023-12-15 20:49| 来源: 网络整理| 查看: 265

《数据挖掘》国防科技大学《数据挖掘》青岛大学《数据挖掘与python实践》

数据挖掘之数据预处理 1. 数据清洗 Data Cleaning

数据清洗：缺失值、噪声数据、离群点、不一致数据（1）对于丢失数据：

忽略元组（对象），特别是缺少类标签时删除缺失值比例较大的属性手动补全：麻烦自动插值：均值、众数等（2）对于噪声数据和离群点：识别噪声数据并去除：聚类、回归使用箱线图检测离群点并删除平滑噪音以降低噪声数据的影响：分箱法binning、概念分层分箱法：  按箱平均值平滑  按箱中值平滑  按箱边界平滑在这里插入图片描述

（3）对于不一致数据计算推理、替换、全局替换 2. 数据集成

数据集成：整合多个数据库、多维数据集或文件（1）模式集成：统一同一含义的字段名（2）实体识别：统一同一对象的不同称呼（3）数据冲突和解决：统一单位（4）冗余信息处理：相同对象或属性的不同名称、表征同一特征的多个属性

相关性分析 ① 卡方检验——离散变量——越大越相关在这里插入图片描述

观测值（期望值），期望值=行合计×列合计/总数 ② 相关系数（皮尔逊相关系数）——连续变量——越大越相关在这里插入图片描述

协方差分析

3. 数据缩减

数据缩减/规约/压缩：降维、降数据 ➢用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。 ➢归约得到的数据比原数据小得多，但可以产生相同或几乎相同的分析结果。（1）降维/维归约（检测并删除不想管、弱相关或冗余的属性维）

主成分分析PCA（将多个相同的属性合并成一个）计算花费低，可以用于有序和无序的属性，并且可以处理稀疏和倾斜数据。属性子集选择属性子集选择的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性的原分布。通常使用压缩搜索空间的启发式算法，策略是做局部最优选择，期望由此导致全局最优解。 ① 逐步向前选择该过程由空属性集开始，选择原属性集中最好的属性，并将它添加到该集合中。在其后的每一次迭代，将原属性集剩下的最好的属性添加到该集合中。 ② 逐步向后删除该过程由整个属性集开始。在每一步，删除掉尚在属性集中的最坏属性。如：粗糙集理论 ③ 向前选择和向后删除的结合将向前选择和向后删除方法结合在一起；每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。 ④ 判定树归纳判定树归纳构造一个类似于流程图的结构，其每个内部（非树叶）节点表示一个属性上的测试，每个分枝对应于测试的一个输出；每个外部（树叶）节点表示一个判定类。在每个节点，算法选择“最好”的属性，将数据划分成类。数据立方体聚集在这里插入图片描述