逻辑回归,朴素贝叶斯,KMeans,决策树的不足和优势

您所在的位置:网站首页 逻辑回归用于分类 逻辑回归,朴素贝叶斯,KMeans,决策树的不足和优势

逻辑回归,朴素贝叶斯,KMeans,决策树的不足和优势

2024-07-12 04:13| 来源: 网络整理| 查看: 265

1.逻辑回归: (1)优点: 第一:原理直观易懂,容易实践,以输出的概率的形式展现属于某一类别的置信度,获取的信息相当的丰富。 第二:逻辑回归属于二分类任务,对多分类任务,也可以通过一定的方式将其转换为多个二分类任务。 第三:虽然逻辑回归的单独应用比较少,但是涉及的原理在深度学习中有诸多的借鉴,如:逻辑回归中的Sigmoid函数也常用作深度学习中的非线性激活函数层,用以加强模型的拟合能力。 (2)不足: 第一:对于特征比较复杂的数据以及复杂文本,容易欠拟合,效果比较一般。 第二:在自然语言处理领域中,由于文本的特征相对较复杂,在文本的特征层面需要考虑的方面比较多,所以逻辑回归一般只能应用于比较简单的自然语言处理任务,通常是特征比较明确而且数量不多的情况下。

2.朴素贝叶斯: (1)优点: 第一:基于古典数学理论,算法直观简单,对缺失数据不太敏感,在简单的数据上分类效果不错。 (2)不足: 第一:基于特征条件独立假设进行分类,因此当数据集的特征存在关联时,分类效果不佳。 第二:对于文本而言,不仅仅是词的堆叠,其中词汇间存在相关性,如果把每个词汇当成是本文特征,那么便不满足特征条件独立性假设,不适用于朴素贝叶斯算法来建模。 第三:需要事先假设特征的先验分布,如果假设与真实情况不太符合,那么模型效果肯定也会受影响。而类别的先验分布也一般基于训练数据来计算,在数据没有代表性,不太能表征真实数据的情况下,也会产生较多误分类。

3.KMeans算法: (1)优点: 第一:简单实用的聚类算法,大至总统选举,小至用户评论聚类,在很多领域都有应用。 第二:调节参数过程也比较简单,主要为K的选择,而且算法的可解释性也较强。 (2)不足: 第一:在数据比较复杂而且数量大的时候,K的取值不好把握; 第二:基于质心的计算模式,异常数据对算法也有很大的影响,所以检测及删除异常点是很重要的预处理步骤。再者,如果类别数据不平衡也很难达到很好的效果; 第三:不能处理非球形簇,不同尺寸及不同密度的簇。

4.决策树: (1)优点: 第一:直观易懂,规则性强; (2)不足: 第一:容易产生过拟合现象。其实是可以通过剪枝类缓解此类现象,即把相对流程复杂的树修剪成结构更简单的树,实质上简化模型的手段。另外可以通过集成学习的方法也可以减弱过拟合现象。 (3)随机森林:多棵树的集合,综合多个弱分类器成为一个强分类器。 包括两个步骤: A.随机从集合中取一定数量的样本; B.从所有属性中取一定数量的属性。 其中随机森林是结合了多可决策树的决策结果,可以有效地抑制单棵树过拟合的现象,鲁棒性更强。 但是在噪声比较多的训练集上,随机森林也容易产生过拟合的现象。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3