风控ML[19]

您所在的位置:网站首页 风控算法模型有哪些 风控ML[19]

风控ML[19]

2024-07-12 01:26| 来源: 网络整理| 查看: 265

1a1d7c92288e055661e8e46448d72ae7.webp

00 Index

01 LR是什么? 02 LR在金融领域有哪些优势 03 LR的算法推导过程 04 LR的重要参数 05 LR与评分卡 06 总结一下

🙊 01 LR是什么?

LR全称是 Logistic Regression,中文名为逻辑回归模型。虽然名字里带有“回归”二字,但其实是属于分类模型,属于线性分类器。既然LR里有“回归”,那就说明了它和回归多少有些渊源了。我们知道线性回归模型的一般表达形式如下:

θθθθ

我们还可以用矩阵来表示上面这个方程:

其中,θ_0被我们称为截距(intercept),其余的θ被称为系数(coefficient)。而我们知道,线性回归模型的输出值是连续型,如果要将其映射成0和1的二分类值的话,就需要引入 Link Function,也就是我们常说的 Sigmoid函数:

它是一个S型的曲线函数,当z趋向于正无穷,它趋向于1,而z趋向于负无穷,它趋向于0,所以它可以让预测结果都映射到0-1之间,有点像归一化。dc3c02a192d055a7953834dd53f48546.webp我们把线性回归的θ代入到Sigmoid函数中,可以得到逻辑回归的一般表现形式:

θ

如果我们对二元逻辑回归取odds(形似几率,),其实是可以得到线性回归的,不信?请看:

θ θ θ

所以其实我们的核心工作就是求解z中的θ,让其可以拟合数据得到相对准确的预测结果。

🏆 02 LR在金融领域有哪些优势

这个问题其实一个很重要的优势就是可解释性,当然,还有好几点:

可以解释性好:LR模型概率输出可以转化为对应的二分类概率,具备良好的可解释性,这对于金融行业而言非常重要,可以帮助业务人员更好理解模型以及模型内部的逻辑。

算法简单快速:LR算法是一种简单快速的模型,数据量大的情况下可以一定程度上减轻计算压力,大大提高了模型计算效率。

适用范围广:LR模型可以应用于多种金融风险预测,如信用风险、违约风险、欺诈风险等等,具有良好的适用性。

模型稳定性好:LR模型在面对缺失值、异常值、过拟合等常见问题时表现得比较稳定,可以有效应对金融领域多种异常情况。

综上所述,LR算法在金融领域中得到广泛应用,依托于其解释性好、算法简单快速、适用范围广和模型稳定性好等优点。但是,LR模型也存在一些缺点:

不能处理非线性关系:LR模型只能处理线性关系,对于非线性关系无法很好地进行建模。

劣化快:当自变量与因变量之间的关系非常复杂时,LR模型的表现可能会迅速劣化。

非常依赖数据质量:LR模型对数据质量要求比较高,如果数据存在较多噪声或缺失值等问题,模型的表现可能会受到严重影响。

因此,需要根据具体情况综合考虑LR模型的优劣,并在合适的场景下进行应用。

✍️ 03 LR的算法推导过程

我会简单易懂地介绍一下逻辑回归的推导过程。逻辑回归是一种二分类算法,它的目标是学习一个适当的模型,能够预测一个特定的输入属于哪一类。

首先,我们需要用线性回归模型来表示预测结果:

其中,代表预测结果,是权重系数,是输入特征,是偏移量(也称为截距)。

但是,线性回归模型的输出值是一个连续变量,不能直接用于二分类问题的输出。这时,我们需要引入一个sigmoid函数将线性回归模型的输出值映射到[0,1]之间。

sigmoid函数的定义如下:

其中,z表示线性回归模型的输出值(即 )。

sigmoid函数经过变换,可得到输出值的概率表示:

这里,表示对于给定的输入特征,预测结果为1的概率,表示预测结果为0的概率。

接着,我们需要定义一个目标函数来评估模型的预测能力。通常,我们采用最大似然估计来求解权重系数和偏移量(即和)。

具体而言,我们可以构建一个似然函数L来表示给定样本集合下模型产生预测结果的概率:

其中,表示每个样本真实的标签。

为了简化目标函数的计算,我们可以对似然函数L取对数,得到对数似然函数:

最终,我们的目标是求解使对数似然函数ln(L)最大的权重系数w和偏移量b,一般采用梯度下降法来求解。

⚠️ 04 LR的重要参数

逻辑回归(LR)模型的重要参数包括以下几点:

正则化参数(Regularization Parameter):用于控制模型的复杂度,并防止过拟合。常见的正则化方法有 L1 正则化和 L2 正则化。

学习率(Learning Rate):梯度下降算法中每次迭代更新参数时的步长大小。如果学习率过大,可能导致无法收敛;如果学习率过小,则会使得算法收敛速度缓慢。

最大迭代次数(Maximum Iterations):指定最大的迭代次数,如果达到了最大迭代次数仍未收敛,则停止训练。

收敛阈值(Tolerance):用于判断算法是否已经收敛,当两次迭代之间的代价函数改变量小于收敛阈值时,认为算法已经收敛。

求解器(Solver):LR 模型在求解参数时可以使用不同的求解器,例如梯度下降、牛顿法等。不同的求解器对于不同的数据集和问题有着不同的表现。

类别权重(Class Weight):如果分类问题中正负样本的比例非常失衡,我们可以通过类别权重来平衡样本,以便更好地学习到少数类别的特征。通常情况下,将少数类别的样本赋予更高的权重。

对于这些重要参数,可以通过以下方式进行调参:

交叉验证:使用交叉验证技术对模型参数进行调整,可以得到更可靠的模型效果。

网格搜索:使用网格搜索技术对模型参数进行调整,选取不同的参数组合进行模型训练和评估,以找到最优解。

随机搜索:使用随机搜索技术对模型参数进行调整,随机选取一些参数组合进行训练和评估,以找到最优解。

经验法则:根据经验法则对模型参数进行调整,如对学习率进行指数级别的递减。

通过以上方法,可以对LR模型的重要参数进行调参,以达到最优的模型效果。

🧾 05 LR与评分卡

评分卡(Scorecard)是一种广泛应用于信用风险评估、反欺诈等领域的规则集合,用于对个人或企业进行风险评估,并根据评分结果进行决策。

在使用 LR 模型构建评分卡时,通常需要进行如下步骤:

数据预处理:包括数据清洗、缺失值处理、异常值处理等。

特征工程:选择和构造能够区分好坏客户的特征变量,例如借款人的年龄、收入、负债情况等。

模型训练:将选定的特征变量输入到 LR 模型中进行训练,得到模型参数。

计算分数:使用模型参数和特征变量计算评分卡上的得分,通常可以采用 WOE(Weight of Evidence)编码的方式将连续变量离散化,并使用 IV(Information Value)来评估特征的重要性。

设计评分卡:将得分映射到对应的评分类别上,例如将得分划分为 A \B\C\D\E\F 等级别。

模型验证与维护:对模型进行验证和监控,确保模型的准确性和稳定性,并及时更新评分卡以适应新的业务需求和环境变化。

🤔假如已经完成了LR的建模工作,那么要怎么输出评分卡,给到业务部门使用?

具体可以按下面步骤来走:将模型参数导出:将训练得到的 LR 模型参数导出为 Excel 或 CSV 格式,以便业务部门方便查看。

计算基础分值:在评分卡中,通常会设定一个基础分值,用来表示最优客户的得分。基础分值可以根据历史数据或领域专家的判断进行设定,一般情况下在 400 到 600 分之间。

计算评分卡得分:将 LR 模型参数和特征变量的 WOE 编码对应起来,并根据 IV 值来选择重要的特征变量,然后结合基础分值计算每个客户的评分卡得分。具体计算方法为:将所有特征的 WOE 值乘以其对应的回归系数,再将结果相加,最后加上基础分值即可。关于WOE和IV的原理和计算公式,可以参考之前写的一篇文章:《风控ML[3] | 风控建模的WOE与IV》

制作评分卡表格:将计算得到的评分卡得分制作成表格,并说明不同得分区间所对应的等级、风险等级等信息。可以使用 Excel 或 PPT 等工具进行制作。

发布评分卡:将评分卡表格以邮件、文档等形式发送给业务部门,并提供必要的说明和培训,确保他们能够正确理解和使用评分卡。

✍️下面举一个案例:

假设你正在为一家银行建立贷款违约风险评估模型,数据集包含了客户的个人信息、信用历史等多个变量。经过数据预处理和特征工程后,你使用逻辑回归(Logistic Regression,LR)算法进行建模,并得到了如下的模型参数:

变量名称 回归系数 年龄 -0.12 收入 0.08 负债比例 0.15 历史违约 0.85

为了将 LR 模型转换为评分卡,你需要进行如下步骤:

计算基础分值:在这个例子中,我们假设最优客户的得分为 500 分。因此,基础分值可以设置为 500 分。

计算评分卡得分:根据 WOE 编码将连续变量离散化,并计算每个变量在不同分组下的 WOE 值。例如,对于年龄变量,可以将其分为四个区间,然后根据历史数据计算出每个区间的违约率和非违约率,进而计算出 WOE 值,如下表所示:

年龄区间 违约率 非违约率 WOE 50 0.03 0.97 -2.10

然后将每个变量的 WOE 值乘以其对应的回归系数,并相加,再加上基础分值即可得到每个客户的评分卡得分。

制作评分卡表格:将计算得到的评分卡得分制作成表格,并说明不同得分区间所对应的等级、风险等级等信息。例如,可以将得分划分为 A\B\C\D等级别,如下表所示: 评分区间 得分范围 等级 风险等级 700-850 >= 700 A 低 650-699 650-699 B 中 600-649 600-649 C 高


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3