【校招面经】阿里巴巴

您所在的位置:网站首页 百度数据分析专员笔试 【校招面经】阿里巴巴

【校招面经】阿里巴巴

2024-02-05 02:31| 来源: 网络整理| 查看: 265

(注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论)

 

1. 请说明随机森林较一般决策树稳定的几点原因

   1)bagging的方法,多个树投票提高泛化能力

   2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力

 

2. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

   1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总

   2)聚类方法主要有:

      a. 层次聚类

      b. 划分聚类:kmeans

      c. 密度聚类

      d. 网格聚类

      e. 模型聚类:高斯混合模型

   3)k-means比较好介绍,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。

 

3. 根据要求写出SQL

表A结构如下:

Member_ID(用户的ID,字符型)

Log_time(用户访问页面时间,日期型(只有一天的数据))

URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)

create table B as select Member_ID, min(Log_time), URL from Agroup byMember_ID

 

4. 销售数据分析

以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,

a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?

b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?

表如下:一组每天某网站的销售数据

(没有表,所以略)

 

5. 用户调研

某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:

a) 试验需要为决策提供什么样的信息?

b) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

   a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

   b) 根据三类客户的数量,采用分层比例抽样,然后灰度。

   需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验。

(不知道这算不算事前实验。如果不执行行为直接分析的话,那分析行为应该是在提出改进方案前进行的)

 

6. 观测宇宙中单位体积内星球的个数,属于什么分布:

A 学生分布:小样本量下对正态分布的均值进行估计

B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。

C 正态分布:多组(多次独立重复实验下的随机变量的均值)

D 二项分布:多次抛硬币的独立重复试验

把体积看成时间,那么本题符合B泊松分布。

 

7. 一些关于数据挖掘说法是正确的

A 数据挖掘是万能的(错)

B 如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了(错)

C 数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法(错,业务上的时间大部分在调研和沟通需求,技术上大部分时间在清洗数据)

D ABC均有错(√)

 

8. 已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别:

A 2,9

B 4,9

C 4,4.5(√)

D 2,4.5

 

9. 下面算法中哪一种不属于广义线性回归算法

A 生存模型算法(如Cox比例风险回归,属于)

B beta回归算法(属于)

C logit回归算法(属于)

D 判别分析算法(如线性判别分析LDA,不清楚是否属于)

 

10. 有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句?

A proc sort

B proc rank

C proc univariate(√)

D proc freq

 

11. X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率

A 0.84375(√)

B 0.75275

C 0.65275

D 0.80370

 

12. 下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是?

A 回归系数的符号与专家经验知识不符(对)

B 方差膨胀因子(VIF)=0.85(对)

D 变量重要性与专家经验严重违背(对)

 

13. 由于淘宝买家消费数据是亿级别,假设为了快速计算买家每月的平均消费额,采用抽样1W个买家来计算

A 采用分层抽样方法把全量淘宝买家按照星级,每层抽取相同的数量,计算平均值(要求的是总的分布,分层抽样每层抽一样的把分布改变了)

B 采用系统抽样方法,把全量买家随机排序,每隔一定数量抽一个,计算平均值(√)

C 采用无放回随机方法,从全量买家中随机挑选一个买家,不放回,如此循环(√)

D 采用有放回随机方法,从全量买家中随机挑选一个买家,然后再放回,如此循环(理论上会改变样本分布,虽然很小)

 

14. 请找出数列4,9,23,60,157的下一项()

A 411(√)

B 314

C 425

D ABC均错

60*3-23=157,157*3-60=411

 

15. 以下哪个语法不是R的基础语言

A proc glot(这个是sas)

B select *from table(这个是sql)

C kc



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3