中文文本分类方法综述

2024-07-04 20:49| 来源: 网络整理| 查看: 265

针对传统文本分类方法存在的不足，众多学者对文本分类方法展开研究，对其进行修正和改进。基于神经网络算法在自然语言领域处理的优越性，文献[38]分别使用神经网络算法、KNN算法及SVM算法对Web文本进行分类，结果显示神经网络算法的准确度优于其他算法。相比于传统的分类主要采用有监督的方法，依赖于现有的自然语言处理工具容易导致处理过程中的误差累积问题，文献[39]提出了基于卷积深层神经网络的文本语义特征学习方法，利用卷积深层神经网络，自动学习表征实体语义关系的词汇特征、上下文特征以及实体所在的句子文本特征等，该方法不需要利用NLP处理工具抽取特征，极大地改善了特征抽取过程中多个处理环节所带来的误差累积问题，提高了文本分类的准确性。文献[40]提出了一种基于表观语义和ASLA的中文文本分类方法。利用百度百科对中文文本的表观语义进行提取，进而采用pLSA挖掘潜在语义，并计算根据表观语义和潜在语义与文档对类别的相关程度，该方法能够很好地处理中文网络短文本等不规则文本的分类。为直接表达文本，文献[41]提出了一种基于密集网的短文本分类模型，采用one-hot编码，通过合并和随机选择的方法扩大文本特征选择，解决了特征稀疏、维文本数据和特征表示等方面问题。文献[42]和文献[43]分别采用改进 TF-IDF 修改词向量权重和人工建立词典的方法，对文本分类算法进行优化，最终利用卷积神经网络构造分类器，提高了文本分类的精度，但其对高阶特征未进行合理的处置，导致学习的时间复杂度远高于传统的机器学习方法，还有待进一步改善。文献[44]提出了一种基于深度学习的特征融合模型的文本分类方法，使用卷积神经网络和双向门控循环单元提取文本的上下文信息和本级信息，有效地提取文本间的语义特征信息，降低文本表示对分类结果的影响。

【本文地址】

中文文本分类方法综述

中文文本分类方法综述

今日新闻

推荐新闻