中文文本中的关键词提取

您所在的位置:网站首页 中文关键词抽取 中文文本中的关键词提取

中文文本中的关键词提取

2024-07-13 10:01| 来源: 网络整理| 查看: 265

基于 TF-IDF 算法进行关键词提取

倾向于过滤掉常见的词语,保留重要的词语。

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence:待提取文本topK:返回 TF-IDF 权重最大的关键词个数,默认值为 20withWeight:是否需要返回关键词权重值,默认值为 FalseallowPOS:仅包括指定词性的词,默认值为空 import jieba.analyse sentence = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。" \ "它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" \ "自然语言处理是一门融语言学、计算机科学、数学于一体的科学。" \ "因此,这一领域的研究将涉及自然语言,即人们日常使用的语言," \ "所以它与语言学的研究有着密切的联系,但又有重要的区别。" \ "自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统," \ "特别是其中的软件系统。因而它是计算机科学的一部分。" keywords = " ".join(jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())) print(keywords)

自然语言 计算机科学 语言学 研究 领域 处理 通信 有效 软件系统 人工智能 实现 计算机系统 重要 一体 一门 日常 计算机 密切 数学 研制

import jieba.analyse sentence = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。" \ "它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" \ "自然语言处理是一门融语言学、计算机科学、数学于一体的科学。" \ "因此,这一领域的研究将涉及自然语言,即人们日常使用的语言," \ "所以它与语言学的研究有着密切的联系,但又有重要的区别。" \ "自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统," \ "特别是其中的软件系统。因而它是计算机科学的一部分。" keywords = jieba.analyse.extract_tags(sentence, topK=10, withWeight=True, allowPOS=(['n', 'v'])) print(keywords)

[(‘计算机科学’, 0.944278347636774), (‘语言学’, 0.5780022728625807), (‘领域’, 0.5237705363622581), (‘处理’, 0.5236311926477419), (‘人工智能’, 0.30509762566096776), (‘实现’, 0.30172453397354837), (‘计算机系统’, 0.293973739006129), (‘一体’, 0.23797146276870967), (‘计算机’, 0.2195091751896774), (‘数学’, 0.21317227341290323)]

基于 TextRank 算法进行关键词提取 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=()) 接口参数同上 import jieba.analyse sentence = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。" \ "它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" \ "自然语言处理是一门融语言学、计算机科学、数学于一体的科学。" \ "因此,这一领域的研究将涉及自然语言,即人们日常使用的语言," \ "所以它与语言学的研究有着密切的联系,但又有重要的区别。" \ "自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统," \ "特别是其中的软件系统。因而它是计算机科学的一部分。" keywords = " ".join(jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))) print(keywords)

研究 领域 计算机科学 实现 处理 语言学 数学 人们 计算机 涉及 有着 一体 方法 语言 研制 使用 人工智能 在于 联系 科学

import jieba.analyse sentence = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。" \ "它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" \ "自然语言处理是一门融语言学、计算机科学、数学于一体的科学。" \ "因此,这一领域的研究将涉及自然语言,即人们日常使用的语言," \ "所以它与语言学的研究有着密切的联系,但又有重要的区别。" \ "自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统," \ "特别是其中的软件系统。因而它是计算机科学的一部分。" keywords = " ".join(jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('n', 'v'))) print(keywords)

领域 计算机科学 处理 计算机 实现 语言学 数学 人们 一体 方法 有着 语言 使用 人工智能 进行 计算机系统 涉及 科学 理论 联系



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3