四川农信:基于集成学习方法的反洗钱可疑交易识别模型构建及应用

您所在的位置:网站首页 四川农信存款利率计算方法 四川农信:基于集成学习方法的反洗钱可疑交易识别模型构建及应用

四川农信:基于集成学习方法的反洗钱可疑交易识别模型构建及应用

2024-06-03 19:18| 来源: 网络整理| 查看: 265

随着互联网技术的发展,信息化网络资金转移行为减少了客户与金融机构的直接接触。与传统柜面交易相比,网络交易不受时间与空间的限制,资金转移速度快,跨地区乃至跨国交易行为造成“鞭长莫及”的状况,导致反洗钱可疑交易排查工作滞后,影响追踪效率。无法及时追踪资金流向会影响金融机构对可疑交易的识别,影响反洗钱可疑交易识别的时效性。

2.传统规则模型误报率高

银行反洗钱可疑交易主要识别方式为规则过滤,先对海量交易规则过滤再安排大量人工进行复核,挑选确定的可疑交易进行上报。洗钱活动连接上下游犯罪,具有全球流动性,其特点不断变化,而反洗钱制度若未能与时俱进地做出修订,基于监管法规标准建立的规则模型识别存在瓶颈。

3.复杂交易识别存在瓶颈

洗钱交易往往具备海量交易账号、复杂交易路径或低频交易等特征,传统规则模型并不能有效识别此类交易,这是金融机构在反洗钱可疑交易检测领域面临的巨大挑战。

目前国内大部分商业银行主要基于监管部门的规则和指引来设计反洗钱可疑交易规则模型,构成其可疑交易识别的规则库。传统商业银行反洗钱可疑交易识别过程为:在商业银行日终批量时,反洗钱可疑交易检测系统自动同步当日交易流水数据,并根据交易特征提取交易要素,对风险判断的有效数据进行预处理操作,使其便于特征匹配,最后将其与反洗钱可疑交易检测特征库中的规则进行比对,判断当前交易是否为洗钱可疑交易。基于规则检测的商业银行风险交易模型如图 1所示。

图1基于规则匹配的反洗钱可疑交易识别模型

这种方法依据具体规则进行可疑交易判断,对于符合规则模型设置的可疑交易识别率很高。但是也存在漏报和误报率高的问题,造成经济损失或更严重的后果,尤其是对熟悉各项业务规则的违法犯罪分子更是难以检测,易出现规则模型失效的情况。

目前国内已有部分金融机构将机器学习方法应用于反洗钱可疑交易识别。但从商业银行实际积累的账户交易数据来看,往往存在建模样本数据噪声多、样本稀疏、数据质量较差、商业银行各业务系统数据标准不一致等情况,其数据清洗、数据加工过程异常繁琐,同时单一模型识别效果不理想等问题。随着商业银行业务线上化、远程化、复杂化,交易和资金呈现流动快速、复杂、跨区域的特点,如何进一步提升商业银行反洗钱交易识别率,是一个亟需解决的问题。

二、集成学习方法

集成学习是一种通过构建并结合多个分类器来完成学习任务的方法。通常是将多个机器学习模型通过特定的策略结合起来,以提高学习和识别效果。

1.基分类器

组成一个集成模型的各基本的分类器称为基分类器。基分类可以采用学习算法相同但参数不同的分类器构成,也可以使用学习算法不同的分类器构成。在集成方法中,基分类器采用的算法相同,被称为“同质集成”;基分类器采用的算法不同,则被称为“异质集成”。

2.集成学习分类

(1)Boosting

Boosting是一种将弱分类器提升为强分类器的算法,核心思想在于:从初始训练集训练出一个基分类器,再根据基分类器的表现对训练样本分布进行调整,使得先前基分类器做错的样本在后续得到更多关注,然后基于调整后的样本分布来训练下一个基分类器,再重复,直至基分类器数目得到事先指定的值 ,最终将个基分类器进行加权组合。

(2)Bagging

为解决Boosting方法中单个基分类器只用到部分训练数据,不足以进行全局学习的情况,Bagging方法基于自助采样法,采样出个含个训练样本的采样集,再基于每个采样集合训练出一个基分类器,再将基分类器进行组合。

三、基于集成学习的商业银行反洗钱可疑交易识别模型

1.模型框架

在当前广泛使用的逻辑回归(LR)、支持向量机(SVM)、决策树(DT)等经典的机器学习模型中,部分模型倾向于减小预测方差,而另一部分倾向于减小偏差。因此从降低“偏差-方差”影响的角度出发,本文采用了集成学习的方法设计商业银行反洗钱识别模型,其实现框架如图2所示。

图2 基于集成学习的反洗钱可疑交易识别模型

主要流程如下:①通过大数据平台进行商业银行各业务系统数据接入和整合;②进行数据清洗、加工和提取出基模型特征子集;③融合不同的基分类器,采用集成学习的方法进行模型训练;④对模型性能进行评估;⑤将模型部署到生产环境中,并对模型的效果进行持续监控。

2.基于集成学习的反洗钱可疑交易模型设计

(1)基分类器评价指标

由于在反洗钱可疑交易检测场景下,正常交易和可疑交易数量偏差较大,是一个典型的样本不均衡的场景,AUC (Area Under Receiver Operating Characteristic Curve)作为基分类器评价指标ROC曲线下面积,反映了分类器对样本的排序能力,即使在类别不平衡的情况下仍用于反映模型性能好坏,能客观识别出较好的分类器。因此,结合商业银行反洗钱数据的特点,在研究中选择AUC作为基模型性能的一个评价指标。

(2)基于相关系数度量的基分类器选择方法

在集成学习中,基分类器通常选择LR、CART、SVM、决策树等弱分类器。在选择具体的基分类器时,需遵循单个基分类器既要有一定的“准确性”,又要在不同基分类器之间具有差异性。为将集成学习模型应用于商业银行反洗钱可疑交易识别场景,在本文的研究中通过采用Pearson相关系数对基分类器结果的相关性进行度量,确保选出基分类器在拥有高性能评价指标的条件下还具有较大的差异性。但是在商业银行反洗钱可疑交易识别这种类别极度不平衡的情况下,大多数样本预测概率非常相近,通过计算Pearson相关性系数往往不敏感,因此可将可疑交易识别问题进一步简化为二分类问题,因此在本文的研究中,为选择出合适的分类器,可将对预测结果的度量变为对模型分类结果差异性度量。具体定义如下:

(3)集成学习模型构建

按照(2)的方法选择出基分类器,并运用Bagging方法进行模型训练,其训练过程如3图所示。

图3集成学习框架

四、实验结果及其分析

1.数据来源

本文采用某商业银行提供的脱敏的交易流水数据作为研究对象。样本交易流水共计1 151 475条,其中疑似洗钱可疑交易流水XXX条,该可疑交易均为基于规则模型无法识别的可疑交易。样本标签为交易流水是否为洗钱可疑交易,如果交易流水是洗钱可疑交易,标记为1,如果为正常交易,标记为0。

2.评价指标

(1)基于混淆矩阵的评价指标

二分类问题的结果可用表2所示混淆矩阵表示。

其中:

TP:模型预测交易是洗钱可疑交易,实际上是洗钱可疑交易;

FP:预测交易是洗钱可疑交易,实际上是正常交易;

TN:预测交易是正常交易,实际上是正常交易;

FN:预测交易是正常交易,实际上是洗钱可疑交易;

基于混淆矩阵,定义本文研究的类别不平衡情况下模型评价指标:精度(Precision)、召回率(Recall)和

值。其定义如下:

精度指预测的洗钱可疑交易中实际洗钱交易占比;召回率指预测正确的洗钱样本占总洗钱样本的比例;

是precision与recall的综合评价,其值越大,代表模型识别能力越强。

(2)KS

KS(Kolmogorov-Smirnov)统计值衡量的是可疑交易与正常交易样本累计分布之间的最大差异。两者分布之间的差异越大,KS指标越大,表明模型的区分能力越强。

(3)AUC

AUC反映了分类器对样本的排序能力,即使在类别不平衡的情况下依通常用于反映模型性能好坏,能客观识别出较好的分类器。

3.实验过程及分析

(1)数据处理

在对样本数据进行探索性分析时发现客户数据、交易数据、行为数据和资产数据集存在数据字段码值异常、取值错误、缺失值、数据标准不一致等问题。由于数据异常的处理过程是一个工程问题,因此针对不同源系统的数据质量问题,在数据入仓过程中按照入仓数据标准和规范进行了处理。

(2)基分类器选取

按照前述基模型选取过程,依次选择LR、SVM、DT、KNN、NavieBayes、MLP和GaussianNB模型做为基分类器,在训练集上完成基分类器的训练,训练结果如表3所示。

(3)模型训练

根据结果,最终选取了LR、KNN、NavieBayes、MLP和GaussianNB作为集成学习模型的基分类器,并基于Bagging方法构建集成学习模型。为验证本文所构建的集成学习模型在商业银行反洗钱数据集上的有效性,作为对比在验证集上分别运行XGBoost、RandomForest、GBM、LightGBM模型,并将其预测结果作为对比。

(4)实验结果和分析

为验证本文构建的集成模型的有效性,结果如图4所示,相比规则模型无法预测出洗钱样本,机器学习模型的确能更有效地捕捉到洗钱特征与标签之间的映射关系,并且在真实数据集上验证有效。

图4不同集成学习模型性能比较

(5)实验总结

基于单机器学习模型在一定程度上的确能够识别银行洗钱可疑交易,但是融合多个弱分类器的集成学习模型明显优于单模型效果;同时该模型也具备可扩展性,可灵活调整基模型以适应不同的数据集。从实验过程和结果分析来看,该方法还是存在以下问题:

①本文所用实验数据中,洗钱可疑交易的样本非常稀少,单一模型效果非常差。一是样本噪音干扰重;二是样本空间洗钱样本分布非常不均匀,模型不能有效抓住洗钱特征与目标标签之间的映射关系。

②本实验特征工程阶段只是从单客户维度设计特征,并没有考虑客户之间的关系特征以及关系网上洗钱风险的传导。深入研究反洗钱建模方法时,可以尝试基于复杂网络、图神经网络建模识别洗钱可疑交易的方法,期待能进一步提升模型预测效果。

各商业银行近年来根据监管部门规则库对洗钱行为进行风险识别和判断,在规则范围内具有较高的准确率。但随着金融科技飞速发展和洗钱交易复杂多变,基于规则模型的识别存在一定的瓶颈。本文建立的反洗钱可疑交易检测模型,使用机器学习算法和模型融合相关理论,设计基于集成学习方法的商业银行反洗钱可疑交易识别模型,在一定程度上解决了规则模型失效的问题。真实数据集上的实验结果表明,本文提出的集成学习的反洗钱可疑交易识别模型较传统规则模型、单一模型方法都有明显的效果提升,从而证明该方法在当前复杂反洗钱可疑交易检测领域的有效性和可行性。返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3