【数据分析与挖掘(一)】笔试题汇总(附答案)

您所在的位置:网站首页 数据分析岗面试问题汇总 【数据分析与挖掘(一)】笔试题汇总(附答案)

【数据分析与挖掘(一)】笔试题汇总(附答案)

2024-07-12 01:43| 来源: 网络整理| 查看: 265

一直以来都有关注数据分析与挖掘领域,但网上信息繁杂,特此整理并筛选了python相关笔试题,供感兴趣的同仁共同学习提高。第一次发文,引陆游《冬夜读书示子聿 》的诗句共勉!

古人学问无遗力,少壮工夫老始成。 纸上得来终觉浅,绝知此事要躬行。(陆游)

一、 单选/填空题

1 一般说,numpy-matplotlib-pandas是数据分析和展示的一条学习路径,哪个是对这三个库不正确的说明? A.pandas仅支持一维和二维数据分析,多维数据分析要用numpy B.matplotlib支持多种数据展示,使用pyplot子库即可 C.numpy底层采用C实现,因此,运行速度很快 D.pandas也包含一些数据展示函数,可不用matplotlib

正确答案:A

2 下面两段代码,哪个说法不正确?

import numpy as np a = np.array([0, 1, 2, 3, 4]) import pandas as pd b = pd.Series([0, 1, 2, 3, 4])

A.a和b是不同的数据类型,之间不能直接运算 B.a和b表达同样的数据内容 C.a和b都是一维数据 D.a参与运算的执行速度明显比b快

正确答案:D

3 哪个选项更能代表如下代码的运行结果? Python基本语法仅支持整数、浮点数和复数类型,numpy和pandas库则支持int64/int32/int16/int8等20余种数字类型,如下说法哪个不正确? A.科学计算可能涉及很多数据,对存储和性能有较高要求,因此支持更多种数字类型。 B.numpy底层是C语言实现,因此,天然支持了多种数据类型。 C.程序员必须精确指定数据类型,因此,会给编程带来一定负担 D.对元素类型精确定义,有助于numpy和pandas库更合理优化存储空间。 正确答案:D

4 如下哪个语句能够生成一个n*n的正方形矩阵,对角线值为1,其余位置值为0。 A.np.zeros((n,n)) B.np.eye(n) C.np.full((n,n),1) D.np.ones((n,n))

正确答案:B

5 阅读如下代码:

import pandas as pd s = pd.Series(10, index=['a', 'b', 'c']

关于变量s,哪个说法是不正确的? A.如果index部分省略,默认生成的索引是0, 1, 2 B.s是一个一维数组 C.s中元素的索引分别是’a’, ‘b’, ‘c’ D.s中每个元素的值是10

正确答案:A

6 阅读如下代码:

import pandas as pd a = pd.Series([9, 8, 7, 6], index=['a', 'b', 'c', 'd'])

哪个是print(a.index)的结果? A.[9, 8, 7, 6] B.[‘a’, ‘b’, ‘c’, ‘d’] C.(‘a’, ‘b’, ‘c’, ‘d’) D.Index([‘a’, ‘b’, ‘c’, ‘d’])

正确答案:D

7 阅读如下代码:

import pandas as pd dt = {'one': [9, 8, 7, 6], 'two': [3, 2, 1, 0]} a = pd.DataFrame(dt)

哪个是print(a.values)的结果? A.[[9 8 7 6] [3 2 1 0]] B.[3, 2, 1, 0] C.[[9 3] [8 2] [7 1] [6 0]] D.[9, 8, 7, 6]

正确答案:C

8 pandas库中Series对象的索引表示类似:Index([5, 4, 3, 2, 1], dtype=’int’),如下哪个说法是不正确的? A.Index()表示这是一个Index类型 B.’int’说明各元素是整数类型 C.dtype表示Index类型中各元素的数据类型 D.5, 4, 3, 2, 1是Index的五个元素,这是一个五维数据

正确答案:D

9 下面关于Series和DataFrame的理解,哪个是不正确的? A.DataFrame表示带索引的二维数据 B.Series和DataFrame之间不能进行运算 C.Series表示带索引的一维数据 D.可以像对待单一数据一样对待Series和DataFrame对象

正确答案:B

10 请阅读如下代码:

import numpy as np a = np.array([10, 8, 15, 6, 1]) np.gradient(a)

上述代码的运行结果是: [-2. -1. -7. -5.]

正确答案:2.5

11 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理

12 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC

13 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘

14 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链

15 以下哪种方法不属于特征选择的标准方法: (D) A 嵌入 B 过滤 C 包装 D 抽样

16 下面不属于创建新属性的相关方法的是: (B) A特征提取 B特征修改 C映射数据到新的空间 D特征构造

17 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C) A 2 B 3 C 3.5 D 5

18 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:(A) A 31 B 24 C 55 D 3

19 设X={1,2,3}是频繁项集,则可由X产生(C)个关联规则。 A、4 B、5 C、6 D、7

20 下面选项中t不是s的子序列的是 ( C ) A、s= t= B、s= t= C、s= t= D、s= t=

21 以下哪些算法是分类算法,(B) A,DBSCAN B,C4.5 C,K-Mean D,EM

22 以下哪些分类方法可以较好地避免样本的不平衡问题, (A)

A,KNN B,SVM C,Bayes D,神经网络

23 决策树中不包含一下哪种结点, (C)

A,根结点(root node) B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node)

24 填空 补全如下代码,调整变量a中第2行和第3行,使这两行交换:

import pandas as pd dt = {'one': [9, 8, 7, 6], 'two': [3, 2, 1, 0]} a = pd.DataFrame(dt) a = a.reindex( _______ = (2, 3))

正确答案:index

25 填空 补全如下代码,对生成的变量a在0轴上进行升序排列。

import pandas as pd import numpy as np a = pd.DataFrame(np.arange(20).reshape(4,5), index = ['z', 'w', 'y', 'x']) a.____________()

正确答案:sort_index

26 填空 补全如下代码,对生成的变量a在第2列上进行数值升序排列。

import pandas as pd import numpy as np a = pd.DataFrame(np.arange(20).reshape(4,5), index = ['z', 'w', 'y', 'x']) a.____________(2)

正确答案:sort_values

二、 多选题

1 对于数据挖掘中的原始数据,存在的问题有: (ABCDE) A 不一致 B重复 C不完整 D 含噪声 E 维度高

2 下面属于数据集的一般特性的有:( B C D) A 连续性 B 维度 C 稀疏性 D 分辨率 E 相异性          3 下面属于维归约常用的线性代数技术的有: (A C) A 主成分分析 B 特征提取 C 奇异值分解 D 特征加权 E 离散化

4 这些数据特性都是对聚类分析具有很强影响的。( ABCD ) A、高维性 B、规模 C、稀疏性 D、噪声和离群点

5 下列属于不同的有序数据的有:(A B C D) A.时序数据

B.序列数据

C.时间序列数据

D.事务数据

E.空间数据

6 数据预处理方法主要有( ABCD)

A.数据清洗 B.数据集成

C.数据变换 D.数据归约

7 与传统的分布式程序设计相比,Mapreduce封装了 ( ABCD )等细节,还提供了一个简单而强大的接口。

A.并行处理 B.容错处理

C.本地化计算 D.负载均衡

三、 判断题

1 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)

2 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)

3 图挖掘技术在社会网络分析中扮演了重要的角色。(对)

4 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)

5 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)

6 离群点可以是合法的数据对象或者值。    (对)

7 离散属性总是具有有限个值。        (错)

8 噪声和伪像是数据错误这一相同表述的两种叫法。     (错)

9 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对)

10 特征提取技术并不依赖于特定的领域。      (错)

11序列数据没有时间戳。      (对)

12 定量属性可以是整数值或者是连续值。     (对)

13 可视化技术对于分析的数据类型通常不是专用性的。    (错)

14 DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)

15 OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 (对)

16 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对)

17 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)

18 数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)

19 Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错)

20 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)

21 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。

22 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错)

23 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是X的子集。(对)

24 具有较高的支持度的项集具有较高的置信度。(错)

25 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。 (错)

26 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)

27 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)

28 Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错)

29 分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对)

30 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)

31 SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错)

32 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)

33 聚类分析可以看作是一种非监督的分类。(对)

34 K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错)

35 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)

36 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)

37 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)

38 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)

说明:本文是从相关博文的分享总结而来,如有疑问,还望各位同仁与前辈指正。

附作者相关研究:(望多多支持,感激不尽!) 超级热门工具下载!!! DirectX修复工具V4.1增强版.zip https://download.csdn.net/download/qq_35778860/76003621 DirectX修复工具V4.1标准版.zip https://download.csdn.net/download/qq_35778860/76003426 DirectX修复工具V4.1在线修复版.zip https://download.csdn.net/download/qq_35778860/76003325 周杰伦 周杰伦婚礼歌单 无损mp3歌曲 适用结婚 基础版+完整版 https://download.csdn.net/download/qq_35778860/80045641 Python: Python实现线性回归、逻辑回归、KNN、SVM、朴素贝叶斯、决策树、K-Means7种机器学习算法的经典案例——亲测可用,链接 https://download.csdn.net/download/qq_35778860/20715889 Python实现飞机大战的完整代码——亲测可用,链接 https://download.csdn.net/download/qq_35778860/57165535 Python爬虫获取豆瓣网评分Top200的电影——亲测可用,链接 https://download.csdn.net/download/qq_35778860/56379309 Python根据下拉选项绘制雷达图和柱形图(异常预控平台)——亲测可用,链接 https://download.csdn.net/download/qq_35778860/20715210 python实现雷达图——亲测可用,链接 https://download.csdn.net/download/qq_35778860/20695215 基于python的北京房屋出租数据可视化分析与3D展示——亲测可用,链接 https://download.csdn.net/download/qq_35778860/20675051 基于Python设计的web接口聊天机器人 https://download.csdn.net/download/qq_35778860/66662593 用Python进行自然语言处理(中文).rar https://download.csdn.net/download/qq_35778860/63652414 《机器学习实战》全书python代码——很全很完整 https://download.csdn.net/download/qq_35778860/62203534 Python3实现十大排序算法 https://download.csdn.net/download/qq_35778860/61630851 Python学生信息管理系统.zip https://download.csdn.net/download/qq_35778860/85006851 C# 成绩管理系统(C/S结构的应用系统,含access数据库)——C#实现 https://download.csdn.net/download/qq_35778860/66967387 C#实现学生信息管理系统(包括增删改查功能)——亲测可用 https://download.csdn.net/download/qq_35778860/61620149 Matlab 极限学习机ELM+OSELM+KELM+半监督SSELM+USELM的matlab程序(附完整代码) https://download.csdn.net/download/qq_35778860/56378533 BP+近邻KNN+LS最小二乘算法的matlab代码——亲测可用(含实例) https://download.csdn.net/download/qq_35778860/56378309 基于matlab的卷积神经网络实现手写数字识别 https://download.csdn.net/download/qq_35778860/66667747 基于MATLAB的人工蜂群算法 https://download.csdn.net/download/qq_35778860/66665944 利用MATLABsilulink搭建有源电力滤波器仿真.zip https://download.csdn.net/download/qq_35778860/63659150 动态规划MATLAB程序.zip https://download.csdn.net/download/qq_35778860/63658838 基于matlab的模式识别基础实例源代码.zip https://download.csdn.net/download/qq_35778860/63658486 Matlab_动态窗口法实现机器人在障碍环境下的模拟避碰仿真.zip https://download.csdn.net/download/qq_35778860/63658232 bp神经网络整定pid参数matlab应用程序.rar https://download.csdn.net/download/qq_35778860/63656174 利用深度学习的matlab程序编码仿真实现图像分割.zip https://download.csdn.net/download/qq_35778860/63655267 matlab算法神经网络、粒子群算法、遗传算法、蚁群算法.rar https://download.csdn.net/download/qq_35778860/74976067 Java 基于java的信息管理系统 https://download.csdn.net/download/qq_35778860/66658535 Java swing学生成绩系统(源码+数据库脚本).rar https://download.csdn.net/download/qq_35778860/63653951 Jsp jsp学生信息管理系统(源码+数据库脚本).zip https://download.csdn.net/download/qq_35778860/63653655 SCN 随机配置网络SCN实现的matlab代码——亲测可用 https://download.csdn.net/download/qq_35778860/61636684 BLS 宽度学习BLS的matlab代码+Mnist数据集 https://download.csdn.net/download/qq_35778860/61635045 Mysql Mysql增删改查代码操作,很全很完整——亲测可用 https://download.csdn.net/download/qq_35778860/61626574 C 基于单片机的交通灯控制系统设计(含代码,原理图)——C语言实现 https://download.csdn.net/download/qq_35778860/60383113 基于单片机的温度控制系统设计代码(含代码,原理图)——C语言实现 https://download.csdn.net/download/qq_35778860/60379923 郭天祥51单片机书中400例程——亲测可用 https://download.csdn.net/download/qq_35778860/58014293 Linux 一篇非常好的linux学习笔记分享(Linux入门绝佳).docx https://download.csdn.net/download/qq_35778860/75444944 资料类 最全的事业编制考试计算机基础知识试题.doc https://download.csdn.net/download/qq_35778860/85005561 江苏事业编制计算机类真题+解析.zip https://download.csdn.net/download/qq_35778860/85005388 CSDN Share:大会PPT合集下载,纯干货! https://download.csdn.net/download/qq_35778860/81175779 C语言教程基础篇【全免费】.ppt https://download.csdn.net/download/qq_35778860/75560127 华为云Stack-8.0.pdf https://download.csdn.net/download/qq_35778860/75445048 C++ 谭浩强(超级完整版).pptx https://download.csdn.net/download/qq_35778860/74975782 表白类 999度玫瑰的表白程序源代码.zip https://download.csdn.net/download/qq_35778860/74975889 网红表白程序-你要愿意爱我一辈子吗? https://download.csdn.net/download/qq_35778860/74975870 Python设计表白神器无法拒绝的爱——亲测可用 https://download.csdn.net/download/qq_35778860/60723376 软件破解注册机 Matlab R2019b Win64 Crack.zip https://download.csdn.net/download/qq_35778860/58000811 其他 微信转盘抽奖小程序源码.rar https://download.csdn.net/download/qq_35778860/63652890



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3