基于聚类算法的算法裁判的研究 |
您所在的位置:网站首页 › 常见分类算法的是 › 基于聚类算法的算法裁判的研究 |
TECHNOLOGY AND INFORMATION IT技术论坛 64
科学与信息化2020年11月中 基于聚类算法的算法裁判的研究 * 王宝莹 1
李泊宁 1
徐天柱 2
刘亚平 1 1. 承德医学院 河北 承德 067000; 2. 承德银行 河北 承德 067000 摘 要
目的:利用下深度学习算法实现智能裁判,提高判案效率和准确率。方法:采用聚类算法中k-means算法 对案件进行分类,更好地实现算法裁判。结果:该聚类算法可以对案件进行分类,但对于没有给定分类的数据集需 要多次实验选定适当k值。结论:初始中心选不同位置会导致最终分类结果不同,对于多分类可能出现局部最优情 况,为了解决这种情况还可以优化k-means算法。 关键词
聚类;k-means;算法裁判;数据集 引言 为了实现人工智能,深度学习被引入到机器学习这个领域 中。深度学习在很多方面都有飞速的发展,例如数据挖掘,搜 索引擎,机器学习和个性化推荐技术等。具体到审判上,算法是 本质,对未来司法活动可以带来巨大的甚至可以说是革命性的影 响就是算法。算法裁判虽然目前在司法实践中的运用还是在起步 阶段,但它所具有的优势着实是显而易见。由于人的决策容易收 到固有偏见的影响,相对而言,算法决策就会更加公平客观。由 于算法是以大量数据为基础,因此在裁判中的运用,可以节省 司法资源,提高司法效率 [1] 。本文主要探讨的是对于大量案件 的分类方法,本文采用聚类分析中的 k-means 算法。 1
聚类算法 ①常见聚类算法简介。聚类算法也称聚类分析是数据挖掘 中的一种重要算法,常见的聚类算法有 k-means 、 k-medoids 、 clara 和 clarans 等。这四类算法的特点如下, k-means 算法对于 非法数据格式较为敏感,产生类的大小相差不会很大 [2] 。而 k-medoids 方法可以解决数据敏感问题,但 k-medoids 方法也存在 缺陷,该种算法只适合小数据,对于大量数据其计算量要大得 多,因此也不适合本文中对于大量案件的分类。而 clara 算法能够 处理大量的数据,因为 clara 算法是一种基于采样的方法。但同样 clara 算法也存在缺陷,采样的大小决定了 clara 算法的效率高低, clara 算法采样都是不变的,最佳的结果很难得到。而 clarans 的算 法在每一次循环的过程中所采用的采样都是不一样的,但也存 在缺点就是循环次数必须认为定义 [3] 。所以最终经考虑本文采 用 k-means 算法。② k-means 算法介绍。 k-means 算法是无监督的 聚类算法,它实现起来比较简单,聚类效果也不错,因此应用 很广泛 [4] 。可以输入一个变量 k, 将大量数据对象进行数据对象划 分,划分为输入值 k 类。这 k 个对象作为初始聚类中心,其余对 象则是需要计算这些对象与聚类中心的距离,计算出距离后要 将对象分配给与其距离最近的聚类。然后继续计算每个所获得 的新聚类的中心,不断重复这一过程直到均值不在变化,或者 说直到标准测度函数开始收敛为止。一般情况下都采用均方差 作为标准测度函数 [5] 。 2
k-means算法在算法裁判中的应用展望 我国目前正在大力发展和建设智慧法院,这也是算法裁判 在司法实践中的具体体现。为实现法院审判体系和审判能力智 能化,需要研制庭审数据格式统一规范,庭审数据深度分析等 规范,利用本文中聚类算法中的 k-means 算法可以对多元化数据 进行数据挖掘和分析,进而提升庭审效率 [6] 。我们对案件随机 选取部分,选取其中 k 个点为聚类中心,计算每个点到 k 个聚类 中心的聚类,然后将该点分到最近的聚类中心,这样就形成了 k 个簇。再重新计算每个簇的质心,重复做直到质心的位置不 再发生变化 [7] 。这样就可以顺利将案件进行分类了。那么在深 度学习的过程中,对待不同类型的案件可以统计规范,实现智 能化审判 [8] 。当然,目前我国的算法裁判还是初步阶段,虽然 有了一定的算法裁判应用,但依然存在一定争议,后续我们可 以改进聚类算法,对于案件分类更加准确,也可以一定程度上 减少算法裁判的争议 [9] 。把案件用表达式表示,假设簇划分为 (C 1 ,C 2 ,...C k ) ,最小化平方误差 E :
( 1 ) 其中 ui 是质心,表达式如下 [10] :
( 2 ) 3
结束语 算法已初步实现,数据集采用于北大法律信息网经典案 例。该聚类算法可以对案件进行分类,但对于没有给定分类的 数据集需要多次实验选定适当 k 值。初始中心选不同位置会导致 最终分类结果不同,对于多分类可能出现局部最优情况,为了 解决这种情况还可以优化 k-means 算法。 参考文献 [1] 高学强 . 人工智能时代的算法裁判及其规制 [J]. 陕西师范大学学 报 : 哲学社会科学版 ,2019(3):161-168. [2] 陈姿含 . 人工智能算法中的法律主体性危机 [J]. 法律科学 : 西北政 法大学学报 ,2019(4):40-47. [3] 苏令银 . 透视人工智能背后的“算法歧视” [N]. 中国社会科学报 , 2017-10-10. [4] 张富利 , 郑海山 . 大数据时代人工智能辅助量刑问题研究 [J]. 昆明 理工大学学报 : 社会科学版 ,2018(6):1-10. [5] 辛春花 , 郭艳光 , 鲁晓波 . 大型数据库中利用强化学习改进 Treap 的 关联规则挖掘算法 [J]. 计算机应用研究 ,2020,38(1):1-6. [6] 何占军 , 邓敏 , 蔡建南 , 等 . 顾及背景知识的多事件序列关联规则挖 掘方法 [J]. 武汉大学学报 ( 信息科学版 ),2018,43(5):766-772. [7] Huang Yu, Li Tang, Luo Cheng, et al. Matrix-based dynamic updating rough fuzzy approximations for data mining [J]. Knowledge- Based Systems, 2017, 119 (6):273-283. [8] HANM J W, KAMBER M, PEI J. 范明 , 孟小峰译 . 数据挖掘概念与 技术 [M]. 北京 : 机械工业出版社 ,2012:35-37. [9] 高一飞 , 高建 . 智慧法院的审判管理改革 [J]. 法律适用 ,2018(1):58-64. [10] 潘玮 , 牟冬梅 , 李茵 , 等 . 关键词共现方法识别领域研究热点过程 中的数据清洗方法 [J]. 图书情报工作 ,2017(7):111-117. 作者简介 王宝莹( 1980 -),女,河北承德人;学历:硕士研究生,职 称:讲师;现就职单位:承德医学院,研究方向:网格计算。 *[ 课题项目 ] 课题名称:智慧法院背景下算法裁判的法理基础与现实路径;课题来源:承德市社科联;课题编号: 20203102 。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |