预测2019

您所在的位置:网站首页 nba21赛季mvp选票 预测2019

预测2019

2023-06-26 02:08| 来源: 网络整理| 查看: 265

受新冠肺炎影响,2019-2020赛季NBA已经处于停摆状态,是否以及何时能复赛还不清楚。相关的各项评选如常规赛MVP、最佳阵容、最佳防守等也由于疫情暂停了。按照往年的赛程节奏,此时也应该进入常规赛收官阶段了。本文利用历史数据和本赛季常规赛已发生数据来预测本赛季(2019-2020赛季)的常规赛MVP。NBA常规赛MVP是NBA所有个人荣誉中的最高荣誉。像乔丹、科比、詹姆斯、库里等超级巨星曾经到获得过常规赛MVP。

一、数据和方法 数据:13-14赛季、14-15赛季、15-16赛季、16-17赛季、17-18、19-20赛季共6个赛季常规赛数据方法:利用xgboost模型回归球员MVP得票率

1、xgboost可以做分类、回归、排序等任务,在R语言中通过设置objective参数进行明确

“reg:linear” :线性回归“reg:logistic” :逻辑回归“binary:logistic” :二分类的逻辑回归问题,输出为概率“binary:logitraw” :二分类的逻辑回归问题,输出的结果为wTx“count:poisson” :计数问题的poisson回归,输出结果为poisson分布“multi:softmax” :让XGBoost采用softmax目标函数处理多分类问题,同时需要设置参数num_class(类别个数)“multi:softprob” :和softmax一样,但是输出的是ndata * nclass的向量,可以将该向量reshape成ndata行nclass列的矩阵。每行数据表示样本所属于每个类别的概率“rank:pairwise” :做排序任务关于R语言实现xgboost模型的参数解释参考:https://blog.csdn.net/zc02051126/article/details/46711047

2、xgboost的输入变量必须是数值型类型,若是无序分类变量需要做one-hot预处理

对于类别有序的类别型变量,比如 age 等,当成数值型变量处理可以的。对于非类别有序的类别型变量,推荐 one-hot。但是 one-hot 会增加内存开销以及训练时间开销。类别型变量在范围较小时(tqchen 给出的是[10,100]范围内)推荐使用 原始数据字段: 出场次数首发次数出场时间投篮命中率命中个数出手次数三分命中率三分命中个数三分出手次数罚球命中率罚球命中个数罚球出手次数篮板数前场篮板数后场篮板数助攻数抢断数盖帽数失误数犯规数得分胜场数负场数mvp得票率*

 

本文应用数据集:https://mp.csdn.net/console/upDetailed 二、建模与预测

1.数据预处理

(1)原始数据预处理:

由于本赛季并未进行完成,因此出场次数、首发次数、胜场数、负场数等受时间制约的特征需要进行标准化(此处适合用Min-Max的方式进行标准化)。因此在这里执行两个动作,一是取消首发次数、胜场数、负场数三个特征,新增首发率、出场胜率两个字段来表征,率指标可消除绝对值的时间因素影响;二是对每个赛季的出场次数特征进行标准化:

                                                                      {\color{Blue} }y_{i}=\frac{x_{i}-min\left ( x_{season j} \right ))}{max\left ( x_{season j} \right )-min\left ( x_{season j} \right )}

鉴于实际评选过程中,球员上赛季是否为MVP对于球员是否能选上MVP影响重大,投票者会有审美疲倦或更苛刻的要求,“连任MVP要求是更高的”。因此增加一个分类特征:上赛季是否MVP。NBA会分东西部赛区,且东西部的竞争格局有较大差异,“西强东弱”一直起来是一个趋势,投票者在投票时也会着重考虑东西部因素,因此增加一个分类特征:球员赛区。处理完后的直接进模型的特征:

出场次数归一

首发率出场时间投篮命中率命中个数出手次数三分命中率三分命中个数三分出手次数罚球命中率罚球命中个数罚球出手次数篮板数前场篮板数后场篮板数助攻数抢断数盖帽数失误数犯规数得分出场胜率上赛季是否MVP球员赛区mvp得票率*     

(2)模型数据预处理:

有些中锋,或者出场时间较短的球员,其赛季数据中容易出现“命中率”类数据为缺失NA的情况,这种情况下根据实际意义可定义为0(例一个从未投出过三分球的球员,我们认为其三分命中率为0)。原始数据框中所有的NA数据都替换为0。

xgboost仅适用于数值型向量,因此在训练模型前需要对数据进行相应的转化预处理操作。另外,为了进一步提升运算效率,xgboost定义了独有的数据类型gb.DMatrix,方便对数据进行数值化和稀疏化处理。

mvpdata


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3