数据科普:从MVP威少到高阶数据

您所在的位置:网站首页 nba高阶数据网站 数据科普:从MVP威少到高阶数据

数据科普:从MVP威少到高阶数据

2024-07-17 08:39| 来源: 网络整理| 查看: 265

威少在他的MVP赛季砍下了当时历史第一的BPM,15.5,远远甩开了排在2-5位的骑士1.0末期的詹姆斯,尚未夺冠的暴力蛮干期帮主,全票MVP赛季的库里。根据BPM衍生的VORP,威少也以难以置信的12.42拿下历史第一,折合胜场价值当赛季雷霆47胜中的33.5胜。我不是为了以此为原因说高阶数据都是一坨屎,我只是把这个作为引子,谈谈BPM和其他一体化高阶数据。

1.从BPM1.0到BPM2.0

BPM是一种很神奇的数据,简而言之,它是一种用基础数据套公式算出来的正负值类数据,它的公式是:

Raw BPM = a*ReMPG + b*ORB% + c*DRB% + d*STL% + e*BLK%+ f*AST% - g*USG%*TO% + h*USG%*(1-TO%)*[2*(TS% - TmTS%) + i*AST% + j*(3PAr -Lg3PAr) - k] + l*sqrt(AST%*TRB%)

从公式可以看出,BPM大体上是个线性模型。把基础数据代入后,只要知道对应的系数,就可以算出BPM了。这项数据的初衷是为了给那些处于数据荒漠年代的历史球星算正负值。但问题在于,我怎么知道系数是多少?

BPM以00-01赛季后的RAPM作为目标进行回归迭代。RAPM是货真价实的正负值类数据,和基础数据没一毛钱关系。然后得到了一组误差最小的系数,就是我们所知道的BPM。

但BPM毕竟不是真的正负值类数据,他有一些显而易见的问题。我们经常强调一项数据虽然没有立场的,但模型的建立者通常会将他们的篮球价值观表现在数据模型中,因此,数据背后所蕴含的逻辑通常比数据本身更重要。在BPM中,我们也能发现作者的篮球价值观的表达。

比如,出场时间作为一个项目被包含在公式中,一项百回合数据为什么要强调出场时间呢?这是因为作者在这里给出一个假设——如果一名球员得到教练的青睐而获得更长的上场时间,那么即便他没有面板数据上的贡献,也一定有其他方面影响比赛的能力,绝大多数据情况下,教练的决策是大体正确的。再者,上场时间更长的球员通常也在和更好的球员进行对抗。

再比如,真实命中率这一项是以和球队整体水平的差值出现在式子中的,这说明作者认为,在一支糟糕球队高效得分的球员有着比在进攻强队中高效得分的球员有着更强的比赛影响力。

而在公式中有两个强力非线性项,分别是USG%*AST%和sqrt(AST%*TRB%),而球权、助攻、篮板、这三项简直是16-17赛季威少的代名词,他使用率前所未有的超过了40%,助攻率超过了57%,篮板率超过17%,每一项都足以让人惊叹,从没有一个球员像他这么打球过(至少在Daniel Myers建立模型时所依仗的14年间里没有出现过)。于是,威少成功打爆了BPM1.0

不过在BPM2.0中,作者剔除了非线性项,现在的BPM是完全线性的,这使得威少的BPM虽然很高,但没那么变态了。

但说到底,BPM还是用基础数据算出来的,虽然比某个作者用来举例的PER、WS这种垃圾不知道高到哪里去了,但还是有很多问题,所以我们需要更好的数据。

2.RAPM为代表的正负值一体化黑箱数据

数据爱好者经常面对这样的质疑:你的数据很好,但你没有那些数据体现不出的作用。RAPM试图解决这个问题,这类数据不看过程看结果。现在的三大一体化数据EPM,LEBORN,RAPOR都是基于这个思路。这类数据在样本足够大时可以表现出你在场上作出的全部贡献,越高的人就越厉害。但这个算法也有局限性,一个球员一年打100场已经很了不起了,但这个样本还是太小。三大一体化数据都是基于这个原因做的修正。但因为是黑箱数据,我们不知道算法。

其中,LEB的表现相当好。有这项数据以来的14位MVP中,只有三位的LEB不是第一,分别是罗斯、威少和恩比德,相当符合映象。

RAPTOR在大样本下表现尚可,但他在球员快速流动和样本量较小时表现不佳。另外有传言说RAPTOR的数据工作室解散了,楼主没有验证过。

EPM是刚刚出现的一体化数据,它很棒,但还需要时间检验。

以上就是我在看了某个图文并茂的所谓高阶数据科普帖以后的一点想法。



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3