【实习总结】大数据开发的日常工作

您所在的位置:网站首页 啥叫大数据技术与应用 【实习总结】大数据开发的日常工作

【实习总结】大数据开发的日常工作

2024-07-16 17:29| 来源: 网络整理| 查看: 265

之前写过了大数据开发的岗位选择以及数据岗位的学习路径。

岗位选择:https://www.nowcoder.com/discuss/462382334675779584?sourceSSR=users

学习路径:https://www.nowcoder.com/discuss/463804300381245440?sourceSSR=users

但对于还处于比较迷茫,不知道是否要投入到大数据的怀抱的同学,其实还希望了解到大数据开发每天的真实工作是哪些,想到我也刚结束一段实习、大家很多正在火热的准备暑期实习,所以顺便写一下实习的情况吧。

1 实习

入职:入职当天,半天进行入职培训,然后下午就是在开通各种权限,包括工具权限、文档权限、平台权限等等。或者是申请各类账号,通常而言公司对于实习生的权限管控较为严格,很多时候申请需要和自己的直属主管(leader)打好招呼。

导师:不同的公司有不同的叫法,大部分是叫mentor、网易叫buddy、阿里叫师兄。不论叫什么,作用都是一样的,所有工作和生活上的问题都可以请教自己的导师,整个实习期间基本也是由导师安排你的工作和学习计划。建议在入职第一周内和mentor以及leader单独聊一次,一方面相互了解,另一方面确定自己实习的整体计划和工作安排。不要害怕提问!!mentor是你最好的资源!!

熟悉环境:这部分分为两个一个是熟悉团队,了解团队的人员分配、组织架构以及大家所负责的领域,其实很难一下子记住,建议只记住一些小组长之类的人,这样起码有相关问题知道找谁。第二个是熟悉工作中要用到的工具、平台,比如数据开发的像网易的猛犸、阿里的DataWorks等等,工欲善其事必先利其器嘛。

当然还要包括企业文化,隐私,安全(数据安全和人身安全),反腐,基础知识学习

熟悉业务:衡量数据开发一段实习的质量,最主要的就是对整个数仓的理解,换言之就是对业务的熟悉程度辣。现在一般的公司和团队都会维护自己的数仓资产白皮书,这是了解数仓的最好入门方式,在有了整体的框架后,有机会也可以去和各个数据域的负责同学或者数分业务同学单聊。这些对于之后简历的包装以及面试都是很有帮助的。

需求开发:通常而言,在基本了解了开发流程以及基础的平台使用后,就会安排一些小的需求啦。然后慢慢的随着对业务和开发能力的提升,就会逐渐派一些大活,甚至后续需要自己独立接需求(包括评审、开发、测试)了。不过,需求开发的时候有任何问题还是要去和mentor讨论哦。

如果大家有兴趣,下一篇就写一下大数据需求开发的全流程

周报日报:一般团队都会要求新人或实习生写每日日报(今日工作、明日计划、总结思考)、以及周报(周报是所有人都要写的),一般而言会要求邮件抄送给整个团队,或者专门放在团队的共享文档中,所以也不能瞎写。leader偶尔闲了会想看一下实习生最近在忙啥。

开会:一天开好多会,有时候真的不是为了卷加班,而是白天一直在开会,晚上才有时间坐下来写代码做开发。。

2 工作 2.1 oncall

如翻译可见,oncall就是随时待命、随叫随到

实际上,在互联网公司中,大数据开发是个需要值夜班的岗位。因为数据调度的任务基本都是在凌晨进行调度,所以一旦晚上任务出了问题,需要值班同学及时处理以确保基线稳定产出。同样的,比如支付宝崩了、微博删热搜,哪怕是大半夜也得有人来处理,所以一旦线上数据有问题反馈对应的owner就得及时处理。

由于楼主之前实习负责过一些流量域的业务,而流量域恰恰是数据问题的重灾区,就比如商户的曝光pv小于商户的曝光uv。一般而言的处理流程如下,开始oncall:

用户向客服小二反馈数据问题

小二无法解决,建群拉产品,向产品阐述问题

PM发现是数据问题,找到对应数据域的负责的大数据开发同学(ads层同样有owner划分)

ads 层开发的同学把后端开发拉进群,让后端开发的人是否出现问题(先排除数据接口的问题):后端开发出问题:问题解决。后端开发没出问题:提供后端查询的 SQL 语句。

数据开发的同学拿这个 SQL 看表是否有问题。

发现表有问题,查生成表格的 SQL 是否有 bug:有 bug:修改,问题解决。没 bug:查这个 SQL 中 SELECT FROM 的表格,假如是 dwd 层。

把 dwd 层的数据开发拉进群。

dwd 层的数据开发进行上面一样的操作,查生成表格的 SQL 是否有 bug:有 bug:修改,问题解决。没 bug:查这个 SQL 中 SELECT FROM 的表格,假如是 ods 层。

把 ods 层的数据开发拉进群。

ods 层的数据开发进行上面一样的操作,查生成表格的 SQL 是否有 bug:有 bug:修改,问题解决。没 bug:埋点出现问题。

拉出埋点日志明细,把埋点的前端开发拉进群。

查到问题:反馈给 PM,PM 反馈给客服小二,客服小二反馈给用户。

基本每次排查问题都需要群里拉一堆人,然后相互排(甩)查(锅)问题,数据问题排查真的是极其耗时,基本每次少则半天多则一两天。

2.2 重构

重构顾名思义就是将原有的表下线、重新构建一个既能包含原有字段又能满足新业务发展的模型。当然有的时候也有原来的代码实在是太依托答辩,所以需要进行优化。而在数仓当中,一张中间表的重构,比如dws层,会涉及到一大堆的下游任务,dws层、ads层任务的切换,所以要十分慎重,对于数据的一致性要求极高。

重构的好处在于统一指标,让表格更合理,更方便管理。另外缩短运行时间。

比如:

ods → 90 分钟 →tb1

tb1 → 30 分钟 → tb2

最终耗时:90 + 30 = 120 分钟

我们将tb1拆解为两个新表tb3、tb4,改用新表之后:

ods → 30 分钟 → tb3

ods → 40 分钟 →tb4

2 个 新 dwd 表 → 50 分钟 → tb2

最终耗时 max(30, 40) + 50 = 90 分钟

这样就节约了30min

2.3 迭代

模型的迭代一般就是在现有模型上进行操作:

新增维度:常见的比如说现在大老板希望能看到不同时段用户的购买情况,划分为:上午、下午、晚上、深夜、凌晨,那么就需要从最原始的代码中底层开发增加这个维度,而且一旦是cube型的模型,还需要和BI确定好分析的维度,因为如果增加所有的分析维度,数据的计算量可能会呈倍数增长

新增指标:通常就是将原模型中没有的指标计算出来,有的时候需要从新的dwd表计算增加上游依赖,大部分时候直接从原有的上游依赖增加计算逻辑即可。比如原来BI只关心商户的曝光uv、pv,现在他们想看商户的引导uv、pv那么就需要新增这两个指标。

口径变更:在阿里经常会存在组织结构的变化(业务的组织结构),比如原来的业务线分为商超、果蔬、便利店,现在要划分为,大商场、水果生鲜、买菜、便利店,那么在数据模型中对应的口径也需要变化,以便于业务方使用数据。

通常而言,模型的迭代较为快速,只要与需求方确认好口径即可。

2.4 新模型

这个工作周期长,难度大,需要和 PM、QA、RD、UI 等等很多人合作

1.角色

新模型都是大活,从 0 到 1,可能开发周期一两个月甚至更长。在此之前先了解一下工作中的角色:

PM(Product Manager):产品经理,负责提需求;

RD(Research and Development):研发,包括前端,后端,数据研发;

QA(Quality Assurance):测试,开发完测试有没有 bug;

DA(Data Analyst):数据分析师。

2.评审

了解了角色,下面就看做需求的整个流程:

需求的来源:其一:用户提给 PM 提要求,想要看什么数据(比如日活);其二:PM 对照其他公司的竞品抄一个过来;其三:PM 自己拍脑袋想出来。

DA 先验证这些指标是否有用。

确认有用,PM 提出需求,写 PRD(Product Requirements Document)。

需求初评会议:由 PM 发起,概述背景、收益及产品方案;数据研发侧对数据探查、工作量评估、人力评估;

数据研发侧确定人力(即 leader 安排谁来干这个活)。(此时前端、后端、测试也确定了人力)

各方对齐时间节点。

需求详评会议:PM,RD,QA进行数据详评;明确时间范围、指标口径、周期等。

3.研发

开始研发,具体步骤如下:

新指标录入管理系统(保证每个指标在每次使用时的英文名称统一,即一致性);

数据 Owner 与各方沟通,出方案(包括数据从哪个表产出,如何关联,最终产出多少个表,最终数据从 Hive 推到 Elasticsearch 还是 ClickHouse,这里是重点,很复杂,后面再讨论);

技术评审:所有数据研发参与,数据 Owner 讲自己的技术方案,其他数据研发看合理性以及是否有问题;

排期,多少天做完;

开发;

自测;

QA 参与测试,数据研发根据结果修改 bug;

4.上线

测试完成之后,还要与前后端联调:

QA 出具测试报告;

回溯历史数据;

与前后端联调;

上线。

5.复盘

统计资源消耗、数据量、任务运行的时间等等。

到此一个新模型的需求堪堪结束,但实际上这才是潘多拉的盒子,随后就是无穷无尽的oncall、迭代、回溯。。。

2.5 回溯

数据回溯也称为补数据,通常而言这是大数据开发工作中最为耗时耗力的工作板块。比如我们对对模型进行了迭代,或者上线了一个新模型,那么下游业务方希望能看到以前的数据,比如前一年的数据,进行年环比,那么就需要对历史数据进行回刷,需要注意以下:

检查代码是否有需要改动?(例行任务和回刷任务可能有的代码需要改变)比如:MaxCompute上常用MAX_PT函数,那么如果下游不考虑数据精度,就不用修,否则就得按照dt去回刷

上游任务时候满足回刷历史数据分区,比如我要回刷到2021-01-01,但上游表只有2022-01-01的数据,那么就要考虑是否要把上游一起刷了,或者直接用最近的数据去回刷

回溯时并行度应该开多少?(资源是很紧张的,不能乱开并行,而且存在自依赖任务)

开始回溯时要时刻盯着队列资源,队列资源多的时候可以增加并发。关于队列可以看之前的文章,关于 Yarn 队列如何进行调度。

2.6 同步

数据模型产出后,需要要供给到BI报表或者后端使用,还需要将数据同步,毕竟不管是报表还是其他业务使用都是要考虑数据查询速度的,所以一般会用一些OLAP,比如ClickHouse、PG等等,所以数据产出后,还要将数仓中的数据推到OLAP中,不过这个一般较为简单、通过平台工具即可。

以上就是大数据开发的一些日常工作啦,不过上述只是从大的角度上去写了一下,其实像其中涉及到的开会、数据测试、数据探查都是极其枯燥并且无法逃脱的,80%的时候都要投入进去,而且每一个模型都是在不断的修改、所以这也就是为什么大数据开发对模型设计能力要求较高。

希望大家看完本文对大数据开发日常工作有一定认识,是不是真的愿意在这样的工作中投入热爱和激情(虽然听说后端也是crud),但相对而言我个人感觉数据工作是最难有成就感的了,数据毕竟是冰冷的,而且也不会有实际功能的产出。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3