Python实现词频统计器算法(完整源码附上)

您所在的位置:网站首页 python3中文词频统计 Python实现词频统计器算法(完整源码附上)

Python实现词频统计器算法(完整源码附上)

2023-06-07 20:48| 来源: 网络整理| 查看: 265

Python实现词频统计器算法(完整源码附上)

词频统计是自然语言处理中一个非常基础和重要的工作。本文将分享一种Python实现的词频统计器算法,称之为“frequency_finder”。

算法原理:

将文本文件读取出来并转化成小写。遍历文本,检查每个单词出现的次数。储存每个单词及其出现次数到字典中。对字典进行排序,按照出现次数从高到低排列。

接下来是完整的源代码:

def word_frequency(filename): # 读取文本文件 with open(filename, 'r') as f: text = f.read() # 转换为小写 text = text.lower() # 替换标点符号为空格 for char in '-.,\n': text = text.replace(char, ' ') # 分割成单词 words = text.split() # 统计每个单词出现的次数 freq_dict = {} for word in words: if word not in freq_dict: freq_dict[word] = 1 else: freq_dict[word] += 1 # 排序 sorted_dict = dict(sorted(freq_dict.items(), key=lambda x: x[1], reverse=True)) return sorted_dict

使用方法: 将上述代码复制到Python环境中,并调用函数即可得到排序后的字典。

filename = 'example.txt' # 替换成需要统计词频的文本文件路径 freq_dict = word_frequency(filename) print(freq_dict)

总结: 以上就是Python实现词频统计器算法的全部内容。该算法虽然简单,但在自然语言处理中有着非常广泛和实用的应用。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3