【单选】下列哪个不属于常用的文本分类的特征选择算法

您所在的位置：网站首页 › 下列哪个不属于促销的主题 › 【单选】下列哪个不属于常用的文本分类的特征选择算法

【单选】下列哪个不属于常用的文本分类的特征选择算法

2024-07-04 07:50| 来源: 网络整理| 查看: 265

常见的文本特征选择方法：

1、DF(Document Frequency) 文档频率，DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性，文本特征提取中会用到这个参量。

2、MI(Mutual Information) 互信息法，互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度，使用互信息理论进行特征抽取是基于如下假设：在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度，如果特征词属于该类的话，它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设，因此非常适合于文本分类的特征和类别的配准工作。

3、IG(Information Gain) 信息增益法，在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，就是熵。

4、CHI(Chi-square) 卡方检验法，卡方检验是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等，其针对分类变量。主成分分析（Principal Component Analysis，PCA），是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p个正交方向，然后对***变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

【本文地址】

【单选】下列哪个不属于常用的文本分类的特征选择算法

【单选】下列哪个不属于常用的文本分类的特征选择算法

今日新闻

推荐新闻