干货 :Python特征选择的总结

您所在的位置:网站首页 python常见的异常类型有哪些 干货 :Python特征选择的总结

干货 :Python特征选择的总结

2023-06-16 10:25| 来源: 网络整理| 查看: 265

第一步:获得专业的领域知识

对如此详尽的特征列表进行分析可能需要大量的计算资源和时间。所以我们需要详细了解每个数据集的属性。

咨询并询问行业的专家哪些特征是必要的;例如,在金融科技数据集的例子中可能需要咨询每天执行贷款评估的信贷员。信贷员将确切地知道是什么驱动了他们的决策过程(我们其实是希望将这部分过程通过ML实现自动化)。

假设我们已得到了以下建议(请参阅下面的代码片段)。虽然我们应该对这些建议保持谨慎,但它为我们开始初步工作提供了一个很好的基础,我们可以进一步改进。

#remove missing valuesloans = loans.dropna

花合理的时间来理解数据集中每个特征的含义:

loan_amnt -借款人申请贷款的清单金额。 term -偿还贷款的次数,其中的值以月为单位,可以是36或60。 int_rate -贷款的利率。 sub_grade -根据借款人的信用记录分配贷款等级分数。 emp_length -借款者的就业年限。 home_ownership-借款人提供的房屋所有权状况(例如,租金、所有权、抵押贷款 等)。 annual_inc -借款人提供的自我报告的年收入。 addr_state-借款人在贷款申请中提供的状态。 dti -用借款人每月偿还的债务总额(不包括按揭)除以借款人每月收入计算的比率。 mths_since_recent_inq-最近一次查询的月份。

revol_util - 循环额度利用率,或借款人使用的信贷金额相对于所有可用的循环信贷。

bc_open_to_buy - 银行卡的总开放购买量。

bc_util - 所有银行卡账户的总流动余额与高信用/信用限额的比率。

num_op_rev_tl - 开户数。

loan_status - 当前贷款状态(例如,完全支付或注销)。这就是我们要用模型预测的标签。

revol_util - 循环额度利用率,或借款人使用的信贷金额相对于所有可用的循环信贷。

bc_open_to_buy - 银行卡的总开放购买量。

bc_util - 所有银行卡账户的总流动余额与高信用/信用限额的比率。

num_op_rev_tl - 开户数。

loan_status - 当前贷款状态(例如,完全支付或注销)。这就是我们要用模型预测的标签。

在进行下一步工作之前,需要先执行数据处理步骤。步骤包括缺失值、异常值和分类特征处理。

q_low = loans["annual_inc"].quantile(0.08)q_hi = loans["annual_inc"].quantile(0.92) loans = loans[(loans["annual_inc"] < q_hi) & (loans["annual_inc"] > q_low)]loans = loans[(loans['dti']



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3