结巴分词优点

您所在的位置:网站首页 中文分词方法按照原理可分为 结巴分词优点

结巴分词优点

2024-05-30 02:08| 来源: 网络整理| 查看: 265

词是中文表达语义的最小单位,中文分词是中文文本处理的一个基础步骤,分词的结果对中文信息处理至为关键。

本文先对中文分词方法进行概述,然后简单介绍结巴分词背后的原理。

1. 中文分词概述

中文分词根据实现特点大致可分为两类:基于词典的分词方法、基于统计的分词方法。

1.1 基于词典的分词方法

基于词典的分词方法首先会建立一个充分大的词典,然后依据一定的策略扫描句子,若句子中的某个子串与词典中的某个词匹配,则分词成功。

常见的扫描策略有:正向最大匹配、逆向最大匹配、双向最大匹配和最少词数分词。

1.1.1 正向最大匹配

对输入的句子从左至右,取词典中最长单词的个数作为第一次取词的个数,在词典中进行扫描,若不匹配,则逐字递减;若匹配,则取出当前词,从后面的词开始正向最大匹配,组不了词的字单独划开。其分词基本原则是:词的颗粒度越大越好;切分结果中非词典词越少越好;总体词数越少越好。

1.1.2 逆向最大匹配

分词原则与正向最大匹配相同,但顺序不是从首字开始,而是从末字开始,而且它使用的分词词典是逆序词典,其中每个词条都按逆序方式存放。在实际处理时,先将句子进行倒排处理,生成逆序句子,然后根据逆序词典,对逆序句子用正向最大匹配处理。

1.1.3 双向最大匹配

将正向最大匹配与逆向最大匹配组合起来,对句子使用这两种方式进行扫描切分,如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。

1.1.4 最少词数分词

即一句话应该分成数量最少的词串,该方法首先会查找词典中最长的词,看是不是所要分词的句子的子串,如果是则切分,然后不断迭代以上步骤,每次都会在剩余的字符串中取最长的词进行分词,最后就可以得到最少的词数。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3