python结巴分词去掉虚词 |
您所在的位置:网站首页 › 结巴的英语形容词 › python结巴分词去掉虚词 |
1.JIEBA简介 jieba是基于Python的中文分词工具,支持繁体分词、自定义词典和三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 算法原理: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 2.Win+Python3.X下的安装使用 JIEBA支持Python2和Python3使用,在Python3.X下JIEBA的Github地址:https://github.com/fxsjy/jieba/tree/jieba3k。 在python环境下安装JIEBA直接pip install jieba即可: image.png 打开Jupyter进行分词: import jieba text = "欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家" # jieba.cut() 方法接受两个输入参数: # 需要分词的字符串 # cut_all 参数用来控制是否采用全模式 # 精确模式,默认模式就是精确模式 seg_list = jieba.cut(text, cut_all = False) print('Default Mode:\n' + '/' .join(seg_list)) # 全模式 seg_list = jieba.cut(text, cut_all = True) print( "Full Mode:\n" + '/' .join(seg_list)) # jieba.cut_for_search() 方法接受一个参数: # 需要分词的字符串 # 该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 # 搜索引擎模式 seg_list = jieba.cut_for_search(text) print('Research Mode:\n' + '/'.join(seg_list)) 运行结果: Default Mode: 欧阳/建国/是/创新/办/主任/也/是/欢聚/时代/公司/云/计算/方面/的/专家 Full Mode: 欧阳/欧阳建/建国/国是/创新/办/主任/也/是/欢聚/时代/代公/公司/云/计算/方面/的/专家 Research Mode: 欧阳/建国/是/创新/办/主任/也/是/欢聚/时代/公司/云/计算/方面/的/专家 可以看到,“云计算”作为一个近年来很热门的词汇,在这里却并没有被识别为一 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |