【校招面经】阿里巴巴 |
您所在的位置:网站首页 › 百度数据分析专员笔试 › 【校招面经】阿里巴巴 |
(注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论)
1. 请说明随机森林较一般决策树稳定的几点原因 1)bagging的方法,多个树投票提高泛化能力 2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力
2. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总 2)聚类方法主要有: a. 层次聚类 b. 划分聚类:kmeans c. 密度聚类 d. 网格聚类 e. 模型聚类:高斯混合模型 3)k-means比较好介绍,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。
3. 根据要求写出SQL 表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页面地址,字符型) 要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致) create table B as select Member_ID, min(Log_time), URL from Agroup byMember_ID
4. 销售数据分析 以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师, a) 从数据中,你看到了什么问题?你觉得背后的原因是什么? b) 如果你的老板要求你提出一个运营改进计划,你会怎么做? 表如下:一组每天某网站的销售数据 (没有表,所以略)
5. 用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题: a) 试验需要为决策提供什么样的信息? b) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。 a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。 b) 根据三类客户的数量,采用分层比例抽样,然后灰度。 需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验。 (不知道这算不算事前实验。如果不执行行为直接分析的话,那分析行为应该是在提出改进方案前进行的)
6. 观测宇宙中单位体积内星球的个数,属于什么分布: A 学生分布:小样本量下对正态分布的均值进行估计 B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。 C 正态分布:多组(多次独立重复实验下的随机变量的均值) D 二项分布:多次抛硬币的独立重复试验 把体积看成时间,那么本题符合B泊松分布。
7. 一些关于数据挖掘说法是正确的 A 数据挖掘是万能的(错) B 如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了(错) C 数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法(错,业务上的时间大部分在调研和沟通需求,技术上大部分时间在清洗数据) D ABC均有错(√)
8. 已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别: A 2,9 B 4,9 C 4,4.5(√) D 2,4.5
9. 下面算法中哪一种不属于广义线性回归算法 A 生存模型算法(如Cox比例风险回归,属于) B beta回归算法(属于) C logit回归算法(属于) D 判别分析算法(如线性判别分析LDA,不清楚是否属于)
10. 有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句? A proc sort B proc rank C proc univariate(√) D proc freq
11. X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率 A 0.84375(√) B 0.75275 C 0.65275 D 0.80370
12. 下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是? A 回归系数的符号与专家经验知识不符(对) B 方差膨胀因子(VIF)=0.85(对) D 变量重要性与专家经验严重违背(对)
13. 由于淘宝买家消费数据是亿级别,假设为了快速计算买家每月的平均消费额,采用抽样1W个买家来计算 A 采用分层抽样方法把全量淘宝买家按照星级,每层抽取相同的数量,计算平均值(要求的是总的分布,分层抽样每层抽一样的把分布改变了) B 采用系统抽样方法,把全量买家随机排序,每隔一定数量抽一个,计算平均值(√) C 采用无放回随机方法,从全量买家中随机挑选一个买家,不放回,如此循环(√) D 采用有放回随机方法,从全量买家中随机挑选一个买家,然后再放回,如此循环(理论上会改变样本分布,虽然很小)
14. 请找出数列4,9,23,60,157的下一项() A 411(√) B 314 C 425 D ABC均错 60*3-23=157,157*3-60=411
15. 以下哪个语法不是R的基础语言 A proc glot(这个是sas) B select *from table(这个是sql) C kc |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |