【单选】下列哪个不属于常用的文本分类的特征选择算法

您所在的位置:网站首页 下列哪个不属于促销的主题 【单选】下列哪个不属于常用的文本分类的特征选择算法

【单选】下列哪个不属于常用的文本分类的特征选择算法

2024-07-04 07:50| 来源: 网络整理| 查看: 265

常见的文本特征选择方法:

1、DF(Document Frequency) 文档频率,DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性,文本特征提取中会用到这个参量。

2、MI(Mutual Information) 互信息法,互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。

3、IG(Information Gain) 信息增益法,在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,就是熵。

4、CHI(Chi-square) 卡方检验法,卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等,其针对分类变量。 主成分分析(Principal Component Analysis,PCA),是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对***变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3