数据分析与数据挖掘期末复习,附例题及答案

您所在的位置:网站首页 数据分析期末考试试卷 数据分析与数据挖掘期末复习,附例题及答案

数据分析与数据挖掘期末复习,附例题及答案

2024-07-11 23:16| 来源: 网络整理| 查看: 265

文章目录 一、概述1.数据挖掘能做什么?2.数据挖掘在哪些方面有应用?3.数据挖掘与数据分析的区别?4.数据挖掘的四大类模型5.什么是数据挖掘?6.数据挖掘的常用方法? 二、数据1.余弦相似度、欧几里得距离2.近似中位数 三、数据预处理1.数据预处理主要有哪些方法,每个方法主要内容是什么?2.在数据挖掘中为什么要对数据进行预处理?3.可以使用概念分层来泛化数据,对于数值属性和分类属性一般可以如何生成概念分层4.距离阈值相关例题(重要)5.规范化例题(重要)6.等宽分箱例题(重要) 四、数据仓库与OLAP1.数据库与数据仓库的区别?2.简述数据仓库体系结构3.简述数据仓库的设计步骤4.简述OLAP和数据仓库的关系5.简述有哪些OLAP基本操作6.学生成绩管理系统设计

提示:以下是本篇文章正文内容,下面案例可供参考

一、概述 1.数据挖掘能做什么?

在这里插入图片描述

2.数据挖掘在哪些方面有应用?

在这里插入图片描述

3.数据挖掘与数据分析的区别?

数据分析更多采用统计学的知识,对源数据进行描述性和探索性分析,从结果中发现价值信息来评估和修正现状。而数据挖掘不仅仅用到统计学的知识,还要用到机器学习的知识,这里会涉及到模型的概念。数据挖掘具有更深的层次,来发现未知的规律和价值

4.数据挖掘的四大类模型

在这里插入图片描述

5.什么是数据挖掘?

数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。(简单讲:从海量数据中找到有价值的金矿)

6.数据挖掘的常用方法?

频繁模式、分类与回归、聚类分析、离群点分析

二、数据 1.余弦相似度、欧几里得距离

对于向量x和y,计算指定的相似性或距离度量 求x=(1,1,1,1),y=(2,2,2,2)的余弦相似度、欧几里得距离。

在这里插入图片描述

2.近似中位数

在这里插入图片描述 在这里插入图片描述

在这里插入图片描述

三、数据预处理 1.数据预处理主要有哪些方法,每个方法主要内容是什么?

数据清洗:去掉数据中的噪声,纠正不一致

数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集

数据转换:将一种格式的数据转换成另一种格式的数据

数据规约:通过聚集、删除冗余属性或聚类等方法来压缩数据

2.在数据挖掘中为什么要对数据进行预处理?

数据预处理的目的是使得数据更易于数据挖掘模型处理

3.可以使用概念分层来泛化数据,对于数值属性和分类属性一般可以如何生成概念分层

数值属性:概念分层可以根据数据的分部自动地构造 分类属性:如果分类属性是序数属性,可以使用类似于处理连续属性方法的技术以减少分类值的个数 如果分类属性是标称的或者无序的,就需要使用其他方法。

4.距离阈值相关例题(重要)

在这里插入图片描述 引例:使用例3.2中的数据,求出距离阈值为6,非邻点样本的阈值部分为2的噪声数据。

5.规范化例题(重要)

在这里插入图片描述 在这里插入图片描述

6.等宽分箱例题(重要)

用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)进行离散化,使得每箱宽度不大于5,形成概念分层。 在这里插入图片描述

四、数据仓库与OLAP 1.数据库与数据仓库的区别?

1.数据库存储的是原始数据,没有经过任何加工; 数据仓库是为了满足数据分析需要设计的, 对源数据进行了ELT过程,数据抽取工作分抽取、清洗、转换、装载

2.数据仓库的数据量要比数据库大很多

2.简述数据仓库体系结构

数据从操作型数据库、文件、网络等数据源,通过ETL集成工具进行数据抽取、清洗、转换、加载等工作,进入到数据仓库和数据集市中,进而通过OLAP服务器支持前台的多维分析,查询报表、数据挖掘等操作

3.简述数据仓库的设计步骤

概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护

4.简述OLAP和数据仓库的关系

数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取

5.简述有哪些OLAP基本操作

OLAP允许用户从多种角度分析多维数据,包括以下五种基本操作:上卷、下钻、切片、切块、旋转

6.学生成绩管理系统设计

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3