python 去除excel中重复的值并统计重复次数 |
您所在的位置:网站首页 › excel去掉重复值计数 › python 去除excel中重复的值并统计重复次数 |
帮对象处理所需数据时的代码——第四弹(实现功能:文本数据去重,创建包含唯一值的新列,并统计文本数据出现的次数) 第一部分:数据读取和统计程序使用`pd.read_csv`函数逐块读取CSV文件,并将每块的数据类型设置为字符串。然后使用`pd.Series`创建一个空的Series对象`value_counts`,用于存储每个值的重复次数。使用`chunk.values.ravel()`获取所有文本数据,并使用`value_counts`函数统计每个值的重复次数。最后,通过`value_counts.add`函数将每块的统计结果累加到`value_counts`中。 from tqdm import tqdm import pandas as pd # 读取CSV文件,并指定数据类型为字符串 chunksize = 1000000 # 每次读取的块大小 value_counts = pd.Series(dtype=int) for chunk in tqdm(pd.read_csv(r"C:\Users\dell\Desktop\表格一.csv", dtype=str, chunksize=chunksize), total=1219): # 获取所有文本数据并统计每个值的重复次数 counts = pd.Series(chunk.values.ravel()).value_counts() value_counts = value_counts.add(counts, fill_value=0) 第二部分:结果处理和排序首先,使用`value_counts.reset_index()`将`value_counts`的索引重置,并将列名改为'经营范围'和'重复次数'。然后,使用`value_counts.sort_values`按重复次数从高到低对数据进行排序。 # 重置索引并按重复次数从高到低排序 value_counts = value_counts.reset_index() value_counts.columns = ['城市', '重复次数'] value_counts = value_counts.sort_values(by='重复次数', ascending=False) 第三部分:结果保存和进度条显示程序使用`tqdm(total=len(value_counts), desc='Processing')`创建了一个进度条对象`pbar`,并设置进度条的总长度为`value_counts`的长度。接着,使用`value_counts.to_csv`将排序后的结果保存到新的CSV文件中,并设置`index=False`以避免保存索引列。然后,使用`pbar.update()`更新进度条,表示处理完成。最后,关闭进度条并输出一条完成消息。 # 创建进度条 pbar = tqdm(total=len(value_counts), desc='Processing') # 保存结果到新的CSV文件 value_counts.to_csv(r"C:\Users\dell\Desktop\表格二.csv", index=False) # 更新进度条 pbar.update() # 关闭进度条 pbar.close() # 输出消息 print("已经去重完成,丫头!")完整代码: from tqdm import tqdm import pandas as pd # 读取CSV文件,并指定数据类型为字符串 chunksize = 1000000 # 每次读取的块大小 value_counts = pd.Series(dtype=int) for chunk in tqdm(pd.read_csv(r"C:\Users\dell\Desktop\表格一.csv", dtype=str, chunksize=chunksize), total=1219): # 获取所有文本数据并统计每个值的重复次数 counts = pd.Series(chunk.values.ravel()).value_counts() value_counts = value_counts.add(counts, fill_value=0) # 重置索引并按重复次数从高到低排序 value_counts = value_counts.reset_index() value_counts.columns = ['城市', '重复次数'] value_counts = value_counts.sort_values(by='重复次数', ascending=False) # 创建进度条 pbar = tqdm(total=len(value_counts), desc='Processing') # 保存结果到新的CSV文件 value_counts.to_csv(r"C:\Users\dell\Desktop\表格二.csv", index=False) # 更新进度条 pbar.update() # 关闭进度条 pbar.close() # 输出消息 print("已经去重完成,丫头!")总体而言,该程序的目标是读取一个较大的CSV文件,统计其中每个值的重复次数,并将结果按重复次数从高到低进行排序和保存。同时,使用进度条显示处理的进度,以提供可视化的反馈。 如有不足,欢迎指正!!! |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |