Python实现词频统计器算法（完整源码附上）

您所在的位置：网站首页 › python3中文词频统计 › Python实现词频统计器算法（完整源码附上）

Python实现词频统计器算法（完整源码附上）

2023-06-07 20:48| 来源: 网络整理| 查看: 265

词频统计是自然语言处理中一个非常基础和重要的工作。本文将分享一种Python实现的词频统计器算法，称之为“frequency_finder”。

算法原理：

将文本文件读取出来并转化成小写。遍历文本，检查每个单词出现的次数。储存每个单词及其出现次数到字典中。对字典进行排序，按照出现次数从高到低排列。

接下来是完整的源代码：

def word_frequency(filename): # 读取文本文件 with open(filename, 'r') as f: text = f.read() # 转换为小写 text = text.lower() # 替换标点符号为空格 for char in '-.,\n': text = text.replace(char, ' ') # 分割成单词 words = text.split() # 统计每个单词出现的次数 freq_dict = {} for word in words: if word not in freq_dict: freq_dict[word] = 1 else: freq_dict[word] += 1 # 排序 sorted_dict = dict(sorted(freq_dict.items(), key=lambda x: x[1], reverse=True)) return sorted_dict

使用方法：将上述代码复制到Python环境中，并调用函数即可得到排序后的字典。

filename = 'example.txt' # 替换成需要统计词频的文本文件路径 freq_dict = word_frequency(filename) print(freq_dict)

总结：以上就是Python实现词频统计器算法的全部内容。该算法虽然简单，但在自然语言处理中有着非常广泛和实用的应用。

【本文地址】

Python实现词频统计器算法（完整源码附上）

Python实现词频统计器算法（完整源码附上）

今日新闻

推荐新闻