数据分析面试中的业务问题

2023-06-03 22:25| 来源: 网络整理| 查看: 265

一、如何估算今年新生儿出生数量

首先，这类估算问题会经常出现在数据分析、产品、咨询类岗位，统称为费米问题。分析这类问题可以分别从两个角度展开。根据情况，可以采用 Top down bottom up 法则，即先从宏观层面，自上而下推，再由某个点横向切入，反推上去。或者也可以从需求层面和供给层面来说。然后可以对比两次推测得到的结果，如果相差不悬殊，那基本就没差啦。然后在陈述的时候也可以需要说几句可能会出现误差的影响因素以及对结果的影响，会显得思考更加全面。具体的答案不是要求必须正确，重要的的是分析思路这类练习题不要方，多练练思路，多看看平时的新闻报道，掌握一些基本数据sense 就行。

针对本题目：

采用两层模型（人群画像x人群转化）：新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率从数字到数字：如果有前几年新生儿出生数量数据，建立时间序列模型（需要考虑到二胎放开的突变事件）进行预测找一些相关的指标。如婴儿类用品的新增活跃用户数量X_n表示新生儿家庭用户。X_n/第n年的新生儿为该年新生儿家庭用户的转化率。该转化率会随平台发展而发展，可以根据往年数量推出今年的大致转化率，并根据今年新增新生儿家庭用户数量X_(n+1)推出今年估计的新生儿数量。

我的理解是后者都需要往年的数据，在不使用公开参考资料的情况下可能不适用。

附加问题：估算北京市一日卖出的油条数量

油条这道题适合从供给需求两个层面上来思考问题：

角度一（需求层面）：北京市一天卖出的油条

早饭吃油条的人数每人吃的油条的数量北京市约有人口2 000 万人，假设 20 人中有 1 人选择早饭吃油条，则有 2 000÷20 100 万人。每人每次吃 1 根油条。因此，北京市一天卖出约100*1=100 万根油条

角度二（供给层面）北京市一天卖出的油条

北京油条店的数目每家店卖出的油条数目北京市面积约16410平方千米，五环内面积约 7 35 万平方千米，若每 1 平方千米有 2 家油条店，则有 7 35*2=1470 家；五环外有约 1 5700 平方千米，若每两平方千米有 1 家油条店，则有1 5700÷2= 7 850 家。由此，北京共有油条店约 9 320 家。假设每家油条店每天卖出 1 00 根油条。那么，北京市一天卖出 9320*100=93.2 万根油条

结果分析：根据两个角度的估算，北京市一天可以卖出的油条数量约在100 万左右。仍有一些因素可能导致误差，如五环内外油条店的分布密度尚待考证，可通过抽样调查使其更为精准。

二、如果次日用户留存率下降了 5%该怎么分析？

1）首先采用“两层模型”分析：对用户进行细分，包括新老、渠道、活动、画像等多个维度，然后分别计算每个维度下不同用户的次日留存。通过这种方式定位到导致留存率下降的用户群体是谁。

2）对于目标群体次日留存下降问题，具体情况具体分析。具体分析可以采用“内部-外部”因素考虑，内部因素分为获客（渠道质量低、互动获取非目标用户）、满足需求（新功能改动引发某类用户不满）、提活手段（签到等提活手段没打成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等等）；外部因素采用PEST分析，政治（政策影响）、经济（短期内主要是竞争环境，如竞争对手的活动）、社会（舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化）、技术（创新解决方案的出现、分销渠道的变化等等）

留存用户和留存率通常反映了不同时期获得的用户流失的情况，分析这个结果往往是为了找到用户流失的具体原因。

次日留存：因为都是新用户，所以结合产品的新手引导设计和新用户转化路径来分析用户的流失原因，通过不断的修改和调整来降低用户流失，提升次日留存率，通常这个数字如果达到了40%就表示产品非常优秀了。

周留存：在这个时间段里，用户通常会经历一个完整的使用和体验周期，如果在这个阶段用户能够留下来，就有可能成为忠诚度较高的用户。

月留存：通常移动APP的迭代周期为2-4周一个版本，所以月留存是能够反映出一个版本的用户留存情况，一个版本的更新，总是会或多或少的影响用户的体验，所以通过比较月留存率能够判断出每个版本更新是否对用户有影响。

在数据分析里，分析活跃和留存的思路是这样的：

可以对比不同渠道的来看，比如，选取样本的时候，我们就看A和B渠道（比如说seo或者sem）进来的用户有什么区别:

结果就是A渠道用户的质量比B渠道好很多。

其次，我们也可以看产品的改版是否改进了体验：

三、卖玉米如何提高收益，价格提高多少才能获取最大收益？

收益=单价*销售量，所以我们的策略是提高单价或者提高销售规模

提高单价的方法：品牌打造获得长期溢价，但缺陷是需要大量前期营销收入；加工商品占据价值链更多环节，如熟玉米、玉米汁、玉米蛋白粉；重定位商品，如礼品化等；价格歧视，根据价格敏感度对不同用户采用不同定价。

销售量=流量*转化率，上述提高单位溢价的方法可能对流量产生影响，也可能对转化率产生影响。

那么收益=单价*流量*转化率，短期内能规模化采用的应该是进行价格歧视，如不同时间、不同商圈的玉米价格不同，采取高定价，然后对价格敏感的用户提供优惠券等。

类比到广告收益，你觉得一个APP投放多少广告可以获得最大收益？

收益=出价*流量*点击率*有效转化率。放广告的数量增加会提高流量，但会降低匹配程度，因此降低点击率。最大收益是找到这个乘积的最大值，是一个有约束条件的最优化问题。同时参考价格歧视方案，可以对不同的用户投放不同数量的广告。

四、APP激活量的来源渠道很多，怎样对来源渠道变化大的进行预警

1）如果渠道使用时间较长，认为渠道的app激活量满足一个分布，比较可能是正态分布。求平均值和标准差，对于今日数值与均值差大于3/2/1个标准差的渠道进行预警

2）对于短期的新渠道，直接与均值进行对比

五、用户刚进来APP的时候会选择属性，怎么在保证有完整用户信息的同时让用户流失减少。

采用技术接受模型（TAM）来分析，影响用户接受选择属性这件事的主要因素有：

1）感知有用性：

a:文案告知用户选择属性能给用户带来的好处。

2）感知易用性：

a:关联用户第三方账号（如微博），可以冷启动阶段匹配用户更有可能选择的属性，推荐用户选择。

b:交互性做好

3）使用者态度：用户对填写信息的态度

a：这里需要允许用户跳过，后续再提醒用户填写

b:告知用户填写的信息会收到很好的保护

4）行为意图：用户使用APP的目的性，难以控制

5）外部变量：操作时间、操作环境等，这里难以控制

六：男生点击率增加，女生点击率增加，总体为何减少

因为男女的点击率可能有较大差异，同时低点击率群体的占比增大。

如原来男性20人，点击1人；女性100人，点击99人，总点击率100/120。

现在男性100人，点击6人；女性20人，点击20人，总点击率26/120。

即那个段子“A系中智商最低的人去读B，同时提高了A系和B系的平均智商。”

七、如何识别作弊用户

1）渠道特征：渠道、渠道次日留存率、渠道流量以及各种比率特征。

2）环境特征：设备（一般伪造假用户的工作坊以低端机为主）、系统（刷量工作坊一般系统更新较慢）、wifi使用情况、使用时间、来源地区、ip是否进过黑名单

3）用户行为特征：访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为（假用户的行为要么过于一致，要么过于随机）、页面使用行为（正常用户对图片的点击也是有分布的，假用户的行为容易过于随机）

4）异常特征：设备号异常（频繁重置idfa）、ip异常（异地访问）、行为异常（突然大量点击广告、点赞）、数据包不完整等。

八、ABtest

关于AB test的重要性无需多言，数据、产品等从业人员几乎必知，好的数据科学家一定时知道理解业务比模型更为重要，而AB test就是伴随着业务增长的利器。

1、什么是AB test？

A / B测试（也称为分割测试或桶测试）是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。AB测试本质上是一个实验，其中页面的两个或多个变体随机显示给用户，统计分析确定哪个变体对于给定的转换目标（指标如CTR）效果更好。

2、进行AB test的目的是什么？

A / B test可以让个人，团队和公司通过用户行为结果数据不断对其用户体验进行仔细更改。这允许他们构建假设，并更好地了解为什么修改的某些元素会影响用户行为。这些假设可能被证明是错误的，也就是说他们对特定目标的最佳体验的个人或团队想法利用A / B test证明对用户来说是行不通的，当然也可能证明是正确的。

所以说 A/B test不仅仅是解决一次分歧的对比，A/B test可以持续使用，以不断改善用户的体验，改善某一目标，如随着时间推移的转换率。

例如，B2B技术公司可能希望从活动登陆页面提高其销售线索质量和数量。为了实现这一目标，团队将尝试对标题，可视图像，表单字段，号召性用语和页面的整体布局进行A / B测试更改。

一次测试一个变化有助于他们确定哪些变化对访问者的行为产生何种影响，哪些变化没有影响访问者的行为。随着时间的推移，他们可以结合实验中多次正向变化的效果来展示变体相对于控件的可测量的改进。

这样来说产品开发人员和设计人员可以使用A / B测试来演示新功能对用户体验变化的影响。只要目标明确定义并且有明确的假设，用户参与，产品体验等都可以通过A / B测试进行优化。

3、AB test流程

1）确定目标：目标是用于确定变体是否比原始版本更成功的指标。可以是点击按钮的点击率、链接到产品购买的打开率、电子邮件注册的注册率等等。

2）创建变体：对网站原有版本的元素进行所需的更改。可能是更改按钮的颜色，交换页面上元素的顺序，隐藏导航元素或完全自定义的内容。

3）生成假设：一旦确定了目标，就可以开始生成A / B测试想法和假设，以便统计分析它们是否会优于当前版本。

4）收集数据：针对指定区域的假设收集相对应的数据用于A/B test分析。

5）运行试验：此时，网站或应用的访问者将被随机分配控件或变体。测量，计算和比较他们与每种体验的相互作用，以确定每个用户体验的表现。

6）分析结果：实验完成后，就可以分析结果了。A / B test分析将显示两个版本之间是否存在统计性显著差异。

无论的实验结果如何，需要利用试验结果作为学习经验生成未来可以测试的新假设，并不断迭代优化应用元素或网站的用户体验。

4、AB test简例（结合python实现）

实例背景简述：

某司业务接入了的新推荐算法，新推荐策略算法开发完成后，在全流量上线之前要评估新推荐策略的优劣，所用的评估方法是A/B test，具体做法是在全量中抽样出两份小流量，分别走新推荐策略分支和旧推荐策略分支，通过对比这两份流量下的指标（这里按用户点击衡量）的差异，可以评估出新策略的优劣，进而决定新策略是否全适合全流量

步骤：

指标：CTR

变体：新的推荐策略

假设：新的推荐策略可以带来更多的用户点击

收集数据：以下B组数据为我们想验证的新的策略结果数据，A组数据为旧的策略结果数据。均为伪造数据。

分析结果：利用python中的scipy.stats.ttest_ind做关于两组数据的双边t检验，结果比较简单。但是做大于或者小于的单边检测的时候需要做一些处理，才能得到正确的结果。

from scipy import stats import numpy as np import seaborn as sns A=np.array([1,4,2,3,5,5,5,7,8,9,10,18]) B=np.array([1,2,5,6,8,10,13,14,17,20,13,8]) print('策略A的均值是：'+str(np.mean(A))) print('策略B的均值是：'+str(np.mean(B)))

很明显，策略B的均值大于策略A的均值，但这就能说明策略B可以带来更多的业务转化吗？还是说仅仅是由于一些随机的因素造成的。

我们是想证明新开发的策略B效果更好，所以可以设置原假设和备择假设分别是:

$H_0:A=B\par H1_:AB$

scipy.stats.ttest_ind(x,y)默认验证的是x.mean()-y.mean()这个假设。为了在结果中得到正数，计算如下：

stats.ttest_ind(B,A,equal_var=False)

根据 scipy.stats.ttest_ind(x, y) 文档的解释，这是双边检验的结果。为了得到单边检验的结果，需要将计算出来的 pvalue 除于2 取单边的结果(这里取阈值为0.05）。求得p-value=0.13462981561745652，p/2 > alpha(0.05),所以不能够拒绝假设，暂时不能够认为策略B能带来多的用户点击。

5、AB test需要注意的点

1）先验性：通过低代价，小流量的实验，再推广到全流量的用户。

2）并行性：不同版本、不同方案在验证时，要保重其他条件都一致。

3）分流科学性和数据科学性：分流科学是指对AB两组分配的数据要一致，数据科学性是指不能直接用均值转化率、均值点击率来进行AB test决策，而是要通过置信区间、假设检验、收敛程度来得出结论。

6、AB test中要知道的统计学知识

1）点估计

2）区间估计

3）中心极限定理（样本估计总体的核心，可以对比看一下大数定理）

4）假设检验

其中假设检验部分为核心，其他辅助更好的理解该部分内容，比如区间估计可以理解为正向的推断统计，假设检验可以理解为反证的推断统计，关于假设检验本身，你可能还需要知道小概率事件、t分布、z分布、卡方分布、p值、alpha错误、belta错误等内容。

九、数据分析中的环比和同比

同比：历史同期数据（一般指月份或者季度），好处是可以排除一部分季节因素，反映了产品的一个长期竞争力的表现。

环比：上一个统计周期数据，好处是可以更直观的表明阶段性的变化，但是会受季节因素影响，反映了产品的短期趋势。

根据统计周期、频率不同会有具体变化。最熟悉的就是CPI（通胀数据），这个是月统计数据，年为主要周期，所以简单来说，同比就是本月与去年同月的比，环比就是本月与上月的比。

一般这两个数据要结合公司的市场推广情况、产品的竞争力进行综合分析，剖析数据变化的内在原因，帮助市场部门更好的制定营销策略。

例1：环比增加了30%，同比只增加了5%，说明公司近期的推销手段可能起作用了，但整体来说，产品的市场认可度并没有大的提升，可能之前的价格没有竞争力或者性价比不高，或产品定位不准，这一切都需要具体情况分析。

例2：环比减少了10%，但同比增加了300%，说明产品近一年的销售情况是不错的，市场认可度一直在提升，但近期可能出现了问题，或者其他新产品影响了他的销售，或者缺少市场推广活动等等。s

十、浅析RFM模型

RFM模型在客户管理中常被用来衡量客户的价值和创新能力，主要考量三个指标：最近一次消费（Recency）、消费频率（Frequency）、消费金额（Money）。根据以上三个维度对客户做细分：假定每个维度划分五个等级，得到R值（1-5）、F值（1-5）、M值（1-5)。客户可以被分作125个细分群，可以根据客户的交易行为差异针对不同的群体做不同的推荐。还可以根据不同的业务场景，对R、F、M赋予不同的权重，Wr、Wf、Wm得到每个用户得分：W=Wr*R+Wf*F+Wm*M，根据最终得分W排序，再划分等级，采用不用的营销策略。

一篇比较好的用户价值分层分析，可以参考：基于RFM的客户价值模型如何进行用户分层，实现精细化运营？利用RFM用户价值模型

十一、数据分析中的异动指标分析

参考：https://www.cnblogs.com/bellz/p/11448562.html

【本文地址】

数据分析面试中的业务问题

数据分析面试中的业务问题

今日新闻

推荐新闻