python 分割 中文 python中文文本分词

您所在的位置:网站首页 文本分词算法怎么用 python 分割 中文 python中文文本分词

python 分割 中文 python中文文本分词

2023-06-17 17:13| 来源: 网络整理| 查看: 265

Python–Jieba进行中文分词(附代码)

相信学习过python的人一定知道中文分词工具Jieba。在Jieba中,我们最熟悉的应该就是分词了,其实,除了分词之外,Jieba还有词性标注,提取关键词等功能。在这里,我要介绍的就是Jieba的分词功能和应用。 (jieba分词官方下载地址:https://github.com/fxsjy/jieba) (jieba官方网站下载速度可能较慢,可获取百度网盘链接进行下载。)

Jieba分词是结合了基于规则和基于统计两类方法的分词。它具有三种分词模式: (1)精确模式:能够将句子精确的分开,适合做文本分析 (2)全模式:把句子中所有可能的词语都扫描出来,无法解决歧义问题 (3)搜索引擎模式:在精确模式的基础中,对长词再次进行切分,可以有效提高召回率。

三种模式的使用方法如下:

import jieba sentence="你需要羽毛球拍吗?" seg_list = jieba.cut(sentence,cut_all=True) print("全模式:","/".join(seg_list)) seg_list = jieba.cut(sentence,cut_all=False) print("精确模式:","/".join(seg_list)) seg_list = jieba.cut_for_search(sentence) print("搜索引擎模式:","/".join(seg_list)) seg_list = jieba.cut(sentence) print("默认模式:","/".join(seg_list))

运行结果如下:

python 分割 中文 python中文文本分词_python 分割 中文



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3