我在阿里做风控算法【内含内推码】

您所在的位置:网站首页 风控算法模型招聘 我在阿里做风控算法【内含内推码】

我在阿里做风控算法【内含内推码】

2024-01-21 20:43| 来源: 网络整理| 查看: 265

展开说之前,先给一个我所在的阿里中国数字商业板块打个广告哈哈哈

今年中国数字商业板块正式成立,包括大淘宝(包括淘宝、天猫、阿里妈妈)、B2C零售、淘菜菜、淘特和1688等业务,其中淘宝相关业务群是阿里巴巴集团中国数字商业板块核心业务之一,业务包括淘宝、天猫、阿里妈妈、闲鱼、阿里拍卖、犀牛智造。我们的业务群致力打造有乐趣的购物体验、有温度的电商平台,助力千万中小商家全面数字化转型~

其中内含很多业务模块,大家可以去招聘官网查看:

https://talent.alibaba.com/campus/home

秋招今天也正式启动了,同时直接附上内推链接,欢迎学弟学妹来私聊我或者直接点击内推链接进行投递哦

https://talent.alibaba.com/campus/qrcode/apply/positions?code=/ialzR2BDelfcOzr2MNXztPr9pS_a0JapL5n0_UHn1E=

启缘起阿里(分享很长,大家可以收藏后看) 初心

我的最后一段校园生活是在中科院自动化所度过的,那里也是国内最早从事AI相关工作的地方。只是早些时候人工智能没那么火的时候,更多是用机器学习、模式识别等子领域来对外介绍自己的方向,比如我所在的实验室就叫做模式识别实验室。之后随着图像分类、人脸识别等智能算法的大规模落地,才统一用AI(Artificial Intelligence)来称呼。

读研期间,我的研究方向为目标检测,包含人脸、行人和通用物体检测等,这也跟我现在的工作内容息息相关。在实验室的生活,简单却也有些枯燥,每天都是看论文、找问题、想idea和实现idea,如果work的话,就写个论文或者专利。学术界评价算法模型的方式也很简单,看公开数据集上谁的算法指标更高或者模型性能更好。研二上学期,我在地平线(Horizon Robotics)实习,那是第一次进入工业界,见识到了工业界和学术界的gap。在学术界,所有问题都是明确定义好的,数据集、模型和评价指标都是确定的,我们只需要优化模型就能解决问题。但是在工业界,很多时候问题都是不明确的,没有数据集和可参考方案,甚至连评价都很难评价。例如风控领域,如何评价算法的召回率就是一个老大难问题,因为你永远无法知道大盘的真实风险数量。这也使得很多高逼格模型在实践中都很难落地,许多paper里的idea在实际任务中都不work。相比于实验室的科研生活,工业界有着更多待解决的更具挑战的任务,尽管艰难,但每一次算法突破都能带来真实的业务提升。

那时候的自己就有了一个想法,我想去工业界看看,做出能真正落地的算法,让自己的模型/算法能得到更多人的使用和认可。因此研二我婉拒了导师的转博机会和留实验室工作机会,毅然投入到了庞大的找工作大军中。尽管未来因此充满了许多不确定性,但我还是想试试,想忠于自己的内心。

初识阿里

研二下学期,大家都开始寻找实习机会,在和导师沟通之后,我也难得获得了2个月的实习时间。在2019年那个有阿选阿的年代,阿里是公认的国内top互联网公司,也是我的首选目标。在导师和师兄们的推荐下,我投了阿里妈妈,希望能在业务部门将算法落地,解决业务中真实存在的问题。

2019年7月份,我开始了自己的实习工作,负责的内容是品牌logo检测算法的研发。当时阿里妈妈在品牌识别方面,主要依靠接入集团的算法能力,但该算法仍是基于传统特征算子,在模型效果和性能方面都不太能满足日益复杂的业务管控需求。而利用深度学习来实现品牌logo的检测,在当时也算是一个比较新的尝试,因为品牌logo的款式、类型变异极大,相较于人脸、行人等高确定性特征物体,识别难度还是很大的,也不太确定能否达到预期效果。不过好在毕竟是自己的研究方向,在模型的选型、方案设计和模型优化等方面,还是比较擅长的。前后耗时将近3个月的时间,完成了全套算法的构建,并在工程同学的帮助下,赶在双十一之前完成了模型的部署,并取得了极为显著的业务效果。该模型自2019年10月份上线之后,一直支撑着品牌风险识别的需求,直到去年才被我用更加先进的模型所替换。

这是我在阿里开发的第一个模型,也是自己第一次尝试去解决一个未明确定义的问题,确实收获了许多不一样的认知。实习结束之后,我也更加明确后续加入阿里的决心和信心。

承 新人Landing 野蛮生长

2020年对我来说是极不平凡的一年,因为新冠疫情,整个研三下半年都是在家里度过的,远程开会、写毕业论文、远程答辩等,没有毕业典礼,也没有离别送行,校园生活就此结束。2020年7月13日,我正式入职阿里,但是当时业务正在经历一些变化,我对自己接下来要做的事情非常不确定。不过所幸团队里的师兄都很nice,热心帮我解决问题和融入工作,从校园生活转变到工作中,倒也没有太多的不适。

刚入职时,团队leader说过,新人来到阿里要保持野蛮生长的状态,不要为自己设限,时刻保持求知欲和好奇心。当时的自己其实并不能深刻体会其中的含义,但在之后的工作中才慢慢理解。读研期间,虽然每个人都有自己的研究方向,但这不代表着你学的什么,工作之后就必须做什么。很多业务问题的复杂度,并不是一个或两个模型/算法能够解决的,需要多种模型的相互配合,才能构成一个完备的识别体系。这个时候,不论是CV模型还是NLP模型,不论是深度算法还是工程优化算法,都只是一种工具,都是算法工程师需要掌握的解决业务问题的方式方法。正如阿里一句土话所说,全力以赴拿结果。在业务中,不论黑猫还是白猫,能抓老鼠的才是好猫。我们需要不断扩充自己的认知边界和知识体系,从算法工程师努力成长为全栈工程师,从问题定义、特征拆解、数据构建、模型设计、工程优化,再到最终的部署上线,提供一站式解决方案。这样一套完整的知识体系储备,才能构建起属于自己的业务和技术壁垒,不为自己设限,多做尝试总是好事。

寻找自己的价值

对于刚入职的新同学来说,融入到团队中,找到自己的团队价值和业务价值是非常重要的事情。谁都想要那种被需要的感觉,谁都不想自己是可有可无的。不论是业务需求还是团队建设需求,找到被需要的感觉对新人来说是很重要的。

我刚入职的第1个月也是挺迷茫的,找不到自己在团队中的定位和价值。自己做的事情,都是基于团队已有算法框架的应用,谁都能做,渐渐的也有点迷茫和担心。因此我也在思考,有什么东西是别人没做的,而我能去尝试做一下的。后来在和主管的闲聊中,了解到当时团队最急缺的算法需求为人脸识别,虽然临时对接了集团的识别能力,但不论是计算吞吐,还是业务灵活度方面,都还不能满足需求,迫切需要有一个自研的人脸识别算法。这对于当时的我来说,确实是个很好的机会,但面对的压力也很大。冷启动阶段,没有数据,没有模型,甚至连知识储备都是欠缺的。和其他算法不同,人脸识别是一个非常复杂的算法系统,牵扯到的算法包括人脸检测、关键点定位、人脸校正、人脸特征提取、特征检索等多个环节,每一个环节都是一个独立的完整模块,不像分类还是检测任务,一个模型就能cover。这对当时的自己既是挑战,也是机会,我也需要这个机会去证明自己。之后经过两个多月的磨练之后,所幸人脸识别模型赶在双十一之前如期完成。上线之时,也受到过运营的质疑,毕竟要用一个新人开发的模型,替换一个稳定运行的成熟模型,谁都觉得不靠谱。不过好在最后一切顺利,2020年双十一,新模型正式上线;2021年双十一,经历多版本优化后,完成全场景的替换。看着日常上亿级别的模型调用量,一切都是值得的。

对新人来说,短期内找不到自己的定位很正常,但要利用这段时间,多去思考团队目前需要的是什么,寻找潜在的业务或者算法价值。之后便是主动承担起责任,努力将这份价值兑现。

转 一年香 按照阿里的年陈文化,入职满一年之后,叫做一年香。我是在2021年的7月份拿到的一年香徽章,工牌卡带也变成了黄色,还剩下橙色、红色和金色卡带,希望自己能集齐四色卡带,到时候一定会再写个10年回忆总结,哈哈。 左边为新人卡带,右边为一年香卡带 FY21财年,自己的工作重心都在算法/模型的能力建设上,虽然解决了很多实际算法问题,但在业务方面的成长确实有限,也暴露了一些问题。在总结了经验教训之后,FY22这一年里,自己的一些收获分享如下:

-算法壁垒,简单有效原理。算法没有壁垒,真正的壁垒在于数据和领域知识。模型没有高低之分,简单有效即为合理。

-对齐目标,做好预期管理。定期和主管对齐目标,确保你做的事情,和团队建设大方向保持一致。对业务方不过高承诺,实事求是。

-业务思考很重要。来源于业务思考的模型,才能真正解决业务问题。

-坚持正确的事情。坚持做正确的事情,做有利于个人发展的事情。

算法壁垒,简单有效原理

对于算法工程师来说,壁垒不在于模型,而在于数据。对于同一批数据集,尽管不同的算法工程师能训练得到不同效果的模型,但在业务中,这些指标的差异并不会带来肉眼可见的业务效果变化。随着各种算法模型和框架的开源,算法的复制成本是很低的,因此算法很难成为壁垒,能形成壁垒的就是数据和领域知识了。很多情况下,数据集的完备性和纯净度,才是制约模型效果的关键。日常的很多工作,其实都在如何获取更多有价值的样本,样本量不足,再简单的任务都很难拟合。对业务部门来说,数据和业务是紧密相关的,了解业务的本质就是了解数据和构建领域知识的过程。算法的学习成本很低,但领域知识的学习和数据获取的成本很高。

对于算法同学,特别是刚踏入工作岗位的同学来说,容易陷入一种盲目的技术憧憬中。模型设计阶段,喜欢构建非常复杂的模型,堆砌各种高大上的算法,但在实际业务中的收益并不明显,且容易带来不必要的工程计算压力。这时候就应该遵循经典的奥卡姆剃刀原理,简单有效即为合理。这就如同数学建模一样,对于给定的复杂问题,通过各种抽象和特征定义,将复杂的问题简单化,用简单的方法解决复杂的问题,对业务的帮助才能最大化。

对齐目标,做好预期管理

在考核阶段,很重要的前提是你的产出和主管的预期目标能保持一致,这点对于新同学来说很重要。否则你可能努力工作了一年,结果辛苦产出的结果却并不是主管想要的,这就容易导致最终的结果和自己预期会有比较大的gap。在做事情之前,一定要和主管对齐目标,确保自己后续的工作和团队大方向、主管预期保持一致,避免劳而无功。

面对日常算法需求的时候,要做好业务方的期望管理。要提前分析好问题的难点,不要轻易承诺业务效果,实事求是。在实践中,很多问题的难度是远超预期的,如果过高承诺效果,容易导致最终产出和运营预期存在较大gap,这也会为后续的优化上线和运营规则配置带来麻烦。此外,预期管理对于个人同样重要,人之所以会感觉到不甘,很多情况下是自己的预期和实际结果存在gap,gap越大越难受。因此做好个人的预期管理,不预先设定过高的期待值,非常重要。

业务思考很重要

在业务部门,对业务思考的深度和带来的业务价值非常重要,这点对于算法和开发岗的同学同样重要。不论何种形式的考核,都会先看个人的业务思考深度,以及为业务发展带来的价值。而这两点在很多情况下,容易被算法或者开发同学所忽略。因为在技术人的惯性思维里,解决了棘手问题,设计了高大上的算法所获得的成就感,比业务成就带来的满足感要高的多。这也使得有时候我们会陷入到这种思维里,一味追求创新,追求算法的先进性,却忽略了很多跟业务效果更加紧密相关的环节,如数据准备/清洗,模型迭代等。最终使得模型效果大打折扣。

为了避免上述问题,在模型设计阶段,需要提前了解业务背景,了解制约当前业务发展最紧迫的环节,再针对性地设计算法,实现真正的头痛医头脚痛医脚,带来最明确的业务效果提升。在内容风控领域,业务思考非常重要。特别是对于一些底限类风险,如何设计出更加具有安全感,更具完备性的识别算法,离不开个人对业务风险的深刻理解和思考。单纯依靠运营输入的知识远远不够,不要让运营告诉你有哪些类型的风险,以及需要哪些识别能力。他们的建议只是参考,更重要的是要从全局的角度去对问题进行拆解,多想多看,运营的管控需求始终只是你模型识别能力的子集。有些类型的风险并不是不管,只是他们没有想到,要尝试创造管控需求。以我的品牌logo识别工作为例,我之前的工作重心都是投入到风险的召回方面,却忽略了业务管控的标准要求。尽管模型的识别精度很高,但是很多无关商品、山寨相关的风险在业务中是不管控的,使得模型精度和业务精度存在极大的gap。之后重新分析了这部分人审通过的风险数据之后,设计了无关商品自动过滤模型,才真正解决了业务上精度不足的问题。

坚持正确的事情

工作也好,为人也罢,还是要坚持做自己坚信的认为正确的事情。外界评价和业务指标有时候并不是判断自己工作的绝对标准,更重要的,是要看自己所做的,是否是真正正确的事情,真正利于个人技术提升和业务发展的事情。例如对于一些底限类风险,可能很努力地设计了许多风险兜底模型,但大盘上因为风险spam极低,看不到业务效果。但这并不意味着这件事情没有意义,相反底限类风险的布防才是关乎内容风控安全的生死问题。

合 不忘初心

写在最后,不论未来还会在阿里走多久,希望自己能始终不忘一个技术人的初心,做出真正有利于业务发展,为风控带来实实在在安全感的算法。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3