第二节、数据

2024-07-12 15:59| 来源: 网络整理| 查看: 265

下一节：总结：https://blog.csdn.net/Carl_changxin/article/details/88528303

1、本节简述

数据类型：数据对象的属性可以具有不同的数据类型，数据类型决定了可以使用何种工具和技术来分析数据，此外新的数据挖掘研究常常是由适应新的应用领域和新的数据类型的需要推动的。

数据的质量：数据质量问题包括存在噪声和离群点，数据遗漏，数据不一致或重复，数据有偏差，数据不能代表描述所设想的现象。注重理解和提高数据质量可以改进分析结果的质量。

使数据更适合数据挖掘的预处理技术：通常原始数据必须进行处理，使之更适合于分析。如提高数据的质量，关注修改数据，使之更好地适应特定的数据挖掘技术或工具。比如将连续型属性（长度）转换成离散的分类值（长、短），以便使用特定的技术。再如，将数据集属性的数目减少，通常会使技术更加有效。

根据数据联系分析数据：数据分析的一种方法是找出数据对象之间的联系，然后使用这些联系而不是数据本身进行其余的分析。比如我们计算对象之间的相似度或距离，然后根据这种相似度或距离进行分析（聚类，分类或异常检测）。

2、数据类型

数据集是数据对象的集合；数据对象用一组刻画对象的基本特性的属性描述。而数据对象的属性可以具有不同的数据类型。

2.1属性

1、属性（也称特征或变量）

属性：是对象的性质，属性因对象而异，或随时间而变化（如温度）。

测量标度：是将数值或符号值和对象的属性相关联的规则。比如将人分成男女就是使用测量标度（规则可以是辨别是否有喉结）将一个值（男或女）同一个特定对象的特定属性（某人的性别）相关联。

2、属性类型

通常称测量标度的类型

属性类型的定义：比如长度作为属性，有数值的许多性质，如按照长度比较，长度的差和比例等等。可以用数值的性质（即操作）来对属性进行分类。

3、用值的个数描述属性

离散的：离散属性具有有限个或无限个可数值。离散属性可以是分类的，比如ID号；也可以是数值的，比如计数。二元属性（0-1）是离散属性的一种特殊情况。

连续的：比如温度，高度或重量等属性。

注：任何测量标度类型是可以和属性值个数的任意类型组合的。然而，有些组合是没有意义的。

注：通常，标称和序数属性是二元或离散的，而区间和比率属性是连续的。然而，计数属性是离散的也是比率属性。

4、非对称属性

对于非对称属性，出现非零属性值是最重要的。比如，数据集中的每个对象都是学生，每个属性记录了学生是否选修了某门课程，选了该门课程即为1，否则即为0。由于学生只选修可选课程的很小一部分，这种数据集大部分值都为0。因此关注非0值将更加有意义，更有效。只有非0值才重要的二元属性是非对称的二元属性。

2.2数据集的类型

1、数据集的一般特性

维度：是指数据集中的对象具有的属性数目。高维数据难以处理，因此数据预处理的一个重要动机是维规约。

稀疏度：对于一些数据集，如具有非对称特征的数据集，一个对象的大部分属性上的值都是0，非0项不到1%，由于只有非零值才需要存储和处理，因此稀疏性是一个优点。

分辨率：在不同的分辨率下的到的数据性质不同。比如在数米的分辨率下，地球表面看上去很不平坦，但在数十公里的分辨率下却相对平坦。再如小时标度下的气压变化可以反应风暴的移动，而在月标度下就检测不到。

为方便起见，将数据集类型分成三组：记录数据，基于图形的数据和有序的数据。这些分类不可能涵盖所有的可能，存在其它可能的分类。

2、记录数据

许多数据挖掘任务都假定数据集是记录（也即数据对象）的汇集，每个记录包含固定的数据字段集（即属性集）。如图a

不同类型的记录数据如下：

事务数据或购物篮数据：事务数据中的每个记录（事务）涉及一个项的集合。如客户购买商品的集合，每个商品就是一个项。如图b数据矩阵（模式矩阵）：若一个数据集族中的所有数据对象都具有相同的数值属性集，则数据对象可以看作多维空间中的点（向量），其中每个维代表描述对象的一个不同属性。数据矩阵是记录数据的变体，由于它是数值属性组成，可以使用标准的矩阵操作对数据进行变换和操作，因对于大部分统计数据，数据矩阵是一种标准的数据格式。如图c稀疏数据矩阵：是数据矩阵的一种特殊情况。该种类型的记录数据中只有非零值才是最重要的。事务数据是仅含0-1元素的稀疏数据矩阵的一个例子。如图d

3、基于图形的数据

图形捕获数据对象之间的联系：数据对象映射到图上的结点，对象之间的联系用链的方向和权值等链性质表示。数据对象本身用图形表示：若对象具有结构，即对象包含具有联系的子对象，则这样的对象常用图形表示。

4、有序数据

时序数据（时间数据）：每个数据包含一个与之相关的时间序列数据：个体项的序列时间序列数据：特殊的时序数据，每个记录都是时间序列空间数据：对象处理具有其它类型的属性，还有空间属性，如位置和区域。

3、数据质量

与数据质量相关的概念：

1、测量和数据收集问题

测量误差：测量过程中导致记录的值和实际值不同，测量值和实际值的差称为误差

数据收集错误：比如遗漏数据对象或属性值，不正确的包含数据对象等错误

2、噪声：许多数据挖掘工作都关注设计鲁棒算法，即使存在噪声也能产生可以接受的结果。

3、离群点

4、遗漏值

处理遗漏值的策略：

删除数据对象或属性：只能在数据集中有少量的对象具有遗漏值时采用该策略估计遗漏值在分析时忽略遗漏值

5、不一致的值：纠正

6、重复数据：需要去重复

4、数据预处理

1、聚集

比如：现有一个数据集记录了一年内的在各地的商店商品日销售情况。对该数据集聚集的一种方法就是，只选择一年的某一天的商店商品销售记录，这样就把数据对象的个数降低成商店的个数。

如何创建上面的聚集事务，即对于一个特定商店的所有记录要用单个日销售记录代替，如何合并记录的每个属性。定量属性（价格）一般求和或者求平均值；定性属性（商品）可以忽略或汇总在商店销售的所有商品的集合。

聚集的好处：更具有整体性，更稳定

聚集的缺点：可能不能观测到细节，比如在月上的聚集就丢失了星期几最高销售额的信息。

2、抽样

抽样是一种选择数据对象子集进行分析的常用方法。数据挖掘中使用抽样是因为处理所有的数据费用太高、太费时间。使用抽样可以压缩数据量，使得可以使用更好但开销更大的算法。

选择一个确保以很高的概率得到有代表性的样本的抽样方案，涉及选择适当的样本尺寸和抽样技术。

如下是一些基本的抽样技术（方法）：

简单随机抽样的两种形式：该方法不能充分地代表不太频繁出现的对象类型。无放回抽样有放回抽样：保证了每个对象被选中的概率保持不变分层抽样的两种形式在每组对象类型中抽取固定的数据对象根据每组对象类型所占的比例抽取数据对象渐进抽样（自适应方法）：从一个小样本开始，逐渐增加样本容量直至得到足够容量的样本。

3、维规约

维规约：通过创建新属性，将一些旧属性合并在一起，降低数据集的维度。通过选择旧属性的子集得到新属性称为特征子集选择或特征选择。

维规约的好处：

维度（数据属性的个数）较低，许多数据挖掘算法的效果更好；因为维规约可以删除不相关的特征并降低噪声维规约可能得到更容易理解的模型；因为模型可能只涉及较少的属性维规约可以使得数据更容易可视化；维规约降低了数据挖掘算法的时间和内存需求

维灾难：随着数据维度的增加，许多数据分析变得非常困难。随着维度的增加，数据在它所占据的空间中越来越稀疏。对于分类，可能意味着没有足够的数据去创建模型，可靠地将所有可能的对象指派到一个类。对于聚类，点之间的密度和距离的定义变得不太有意义。结果是对于高维数据，许多分类和聚类算法（以及其它数据分析算法）都有麻烦，分类准确率降低，聚类质量下降。

维规约的线性代数技术：

主成分分析（PCA）是一种用于连续属性的线性代数技术，找出新的属性即主成分，这些属性是原属性的线性组合，是相互正交的，并且捕获数据的最大变差。奇异值分解（SVD）

4、特征子集选择

冗余特征：即某个属性重复了其它属性中的部分或全部内容；比如一种产品的价格和销售税额具有许多相同的信息。

不相关特征：即某个属性的内容对数据挖掘任务起不到作用；比如学生的ID对于预测学生的总平均成无关。

冗余和不相关特征可能会降低分类的准确率或所发现的聚类的质量。

特征子集选择的理想方法：将所有可能的特征子集作为感兴趣的数据挖掘算法的输入，选择产生最好结果的子集。该方法在大部分情况下行不通，因为涉及n个属性的子集会多达2的n次方个。

因此需要其它特征子集选择策略：

嵌入方法：在数据挖掘算法运行期间，算法本身决定使用哪些属性和忽略哪些属性；构造决策树分类器的算法通常以这种方式运行过滤方法：在数据挖掘算法运行前进行特征选择；比如选择属性的集合，他的属性对之间的相关度尽可能低。包装方法：将目标数据挖掘算法作为黑盒，使用类似理想方法的方法，但并不枚举所有可能的子集找出最佳属性子集。

特征子集选择的流程图：

5、特征创建

三种创建新属性的方法：

特征提取：由原始数据创建新的特征集称为特征提取。注意：当数据挖掘用于一个新的邻域，一个关键任务就是开发新的特征和特征提取方法映射数据到新的空间：以不同的视角看待数据，可能揭示重要和有趣的特征。比如时间序列数据常常包含大量周期模式，并且存在大量噪声，对该时间序列进行傅里叶变换，将它转换成频率信息明显的表示，就能检测到这些模式。

特征构造：原始数据集的特征具有必要的信息，但其形式不适合数据挖掘算法，一个或多个由原始特征构造的新特征可能比原始特征更有用。比如某人工制造品的数据集，该数据集包括每个人工制造品的体积和质量；我们希望根据制造材料（木材，陶土，青铜，黄金）对这些人工制造品分类，就可以构造密度特征（密度=质量/体积）直接产生准确的分类。

6、离散化和二元化

二元化举例：若有m个分类值，则将每个原始值唯一地赋予区间[0，m-1]中的一个整数。再将这m个整数变换成一个二进制数。如一个具有5个值{awful，poor，OK，good，great}的分类变量需要三个二元变量x1，x2，x3。