THULAC：一个高效的中文词法分析工具包

您所在的位置：网站首页 › 清华学姐舆情分析图 › THULAC：一个高效的中文词法分析工具包

THULAC：一个高效的中文词法分析工具包

2024-07-10 23:03| 来源: 网络整理| 查看: 265

user_path 设置用户词典，用户词典中的词会被打上uw标签。词典中每一个词一行，UTF8编码 t2s 默认False, 是否将句子从繁体转化为简体 just_seg 默认False, 时候只进行分词，不进行词性标注 ufilter 默认False, 是否使用过滤器去除一些没有意义的词语，例如“可以”。 model_path 设置模型文件所在文件夹，默认为models/ separator 默认为‘_’, 设置词与词性之间的分隔符 1.5.分词和词性标注模型的使用

THULAC需要分词和词性标注模型的支持，用户可以在下载列表中下载THULAC模型 Models_v1.zip，并放到THULAC的根目录即可，或者使用参数-model_dir dir指定模型的位置。

2.模型训练程序

THULAC工具包提供模型训练程序train_c，用户可以使用train_c训练获得THULAC的所需的模型。

2.1.命令格式 ./train_c [-s separator] [-b bigram_threshold] [-i iteration] training_filename model_filename 使用training_filename为训练集，训练出来的模型名字为model_filename 2.2.参数意义 -s 设置词与词性间的分隔符，默认为斜线/ -b 设置二字串的阈值，默认为1 -i 设置训练迭代的轮数，默认为15 2.3.训练集格式

我们使用默认的分隔符（斜线/）作为例子，训练集内容应为

我/r 爱/vm 北京/ns 天安门/ns

类似的已经进行词性标注的句子。

若要训练出只分词的模型，使用默认的分隔符（斜线/）作为例子，训练集内容应为

我/ 爱/ 北京/ 天安门/

类似的句子。

2.4.使用训练出的模型

将训练出来的模型覆盖原来models中的对应模型，之后执行分词程序即可使用训练出来的模型。

与代表性分词软件的性能对比

我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境，根据第二届国际汉语分词测评（The Second International Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准，对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评中，共有四家单位提供的测试语料（Academia Sinica、 City University 、Peking University 、Microsoft Research）, 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集（training）、测试集（testing）, 以及根据各自分词标准而提供的相应测试集的标准答案（icwb2-data/scripts/gold）．在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

我们在统一测试环境下，对上述流行分词软件和THULAC进行了测试，使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下：

msr_test（560KB）

【本文地址】

THULAC：一个高效的中文词法分析工具包

THULAC：一个高效的中文词法分析工具包

今日新闻

推荐新闻