中文分词工具比较

您所在的位置:网站首页 分词工具包 中文分词工具比较

中文分词工具比较

2022-12-29 00:31| 来源: 网络整理| 查看: 265

在本篇文章中,将介绍​​9​​个常用的分词工具及其对比。

​​jieba​​、​​SnowNLP​​、​​北京大学PKUseg​​、​​清华大学THULAC​​、​​HanLP​​、​​FoolNLTK​​、​​哈工大LTP​​、​​CoreNLP​​、​​BaiduLac​​。

* 部分分词中有可参考的论文。如北大、清华和百度Lac,可引用

文章目录简介1 jieba2 SnowNLP3 北京大学PKUse4 清华大学THULAC5 HanLP6 FoolNLTK7 哈工大LTP8 斯坦福分词器CoreNLP9 BaiduLac比较相关文章参考文献

简介

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。

在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。下面就介绍一些成熟的分词工具。

1 jieba

" 结巴"中文分词:做最好的Python中文分词组件 “Jieba”

更新时间:2020年

官网地址:​​jieba​​

特点:

支持三种分词模式: ​​精确模式​​,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典 2 SnowNLP

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的

更新时间:2017年

官网地址:​​SnowNLP​​

特点:

中文分词(Character-Based Generative Model)词性标注(TnT 3-gram 隐马)情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)文本分类(Naive Bayes) 网友测试:特别慢

3 北京大学PKUse

官网有关于PKUse、THULAC、jieba的对比情况,可参考

pkuseg:一个多领域中文分词工具包

更新时间:2019年

官网地址:​​北京大学PKUse​​

特点:

多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型更高的分词准确率。支持用户自训练模型。支持词性标注。 4 清华大学THULAC

官网有关于LTP、THULAC、jieba、ICTCLAS的对比情况,可参考

THULAC清华大学:一个高效的中文词法分析工具包

更新时间:2018年

官网地址:​​清华大学THULAC​​

​​THULAC(THU Lexical Analyzer for Chinese)​​由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

​​能力强。​​利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。 ​​准确率高。​​该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。 ​​速度较快。​​同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。 5 HanLP

HanLP面向生产环境的多语种自然语言处理工具包,基于 TensorFlow 2.0,目标是普及落地最前沿的NLP技术

更新时间:2020年

官网地址:​​HanLP​​

Github地址:​​HanLP​​

特点:

HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

6 FoolNLTK

FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词

更新时间:2018年

官网地址:​​FoolNLTK​​

特点:

可能不是最快的开源中文分词,但很可能是最准的开源中文分词基于BiLSTM模型训练而成包含分词,词性标注,实体识别, 都有比较高的准确率用户自定义词典可训练自己的模型批量处理 7 哈工大LTP

语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。

LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口、可视化工具,并且能够以网络服务(Web Service)的形式进行使用。

更新时间:2019年

官方网站:​​LTP​​

GIthub地址:​​LTP​​

特点:

主页上给过调用接口,每秒请求的次数有限制。

8 斯坦福分词器CoreNLP

Stanford CoreNLP提供了一组用Java编写的自然语言分析工具。

更新时间:2020年

Github地址:​​CoreNLP​​

特点:

斯坦福的各个工具都有相关文献可以深入学习原理,这点是一大优势。而且算法基本上都是最新或者最优的。java编写。

9 BaiduLac

Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型,在单个模型中完成中文分词、词性标注、专名识别任务。

更新时间:2019年

Github地址:​​Lac​​

特点:

工程中使用依赖Paddle v0.14.0版本。定制化功能 比较

准确率、社区活跃度、适应范围、速度等。​​北京大学PKUse​​和​​清华大学THULAC​​可供参考。

可根据个人不同的需求去选择不同的分词工具。将自己的语料实际放进去看一下最后的结果。这样会给你一些参考价值。综合速度、社区活跃度、更新频率和语料结果,个人更倾向于​​jieba​​分词,专业的领域交给专业的团队去做。

相关文章

1,​​中文分词理论知识​​

参考文献

1,大量解释性文字参考自知乎用户:​​竹简智能​​

2,SnowNLP测评文章

3,​​SnowNLP例子文章​​

4,中文分词工具比较,6大分词工具:有官网信息

5,​​CoreNLP介绍​​



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3