02

您所在的位置:网站首页 analyse的用法 02

02

#02| 来源: 网络整理| 查看: 265

jieba中文处理

和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。这才是主要需要处理的是基于中文的。jieba可以实现粗细两种粒度的分词处理。一般选择的是粗粒度,不会选择像搜索引擎一样的细粒度的方法。

jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。

jieba可以用在工程中处理一般的任务(有时可以加一点自己的词库)。还有一个收费的效果较好的库/包:汉语分词系统(ICTCLAS 2016)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3