Python + Pandas : 轻松搞定CSV文件

您所在的位置:网站首页 用python处理csv文件 Python + Pandas : 轻松搞定CSV文件

Python + Pandas : 轻松搞定CSV文件

2024-07-01 04:53| 来源: 网络整理| 查看: 265

目录 一、安装 二、示例 CSV 文件 三、读取 CSV 文件 四、数据选择和过滤 五、缺失数据处理 六、数据聚合和分组 七、数据导出 八、其他 Python 库 九、总结

CSV(Comma-Separated Values,逗号分隔值)格式是一种广泛使用的数据存储格式,它以纯文本形式存储表格数据。在 CSV 文件中,通常使用逗号来分隔同一行内的各个字段,而不同的行则用换行符分隔。CSV 文件由于其简单性和易于读写的特点,在数据导出、数据交换以及许多类型的数据处理任务中被广泛应用。

尽管名为“逗号分隔”,但实际上 CSV 文件的字段分隔符也可以是其他字符,如制表符或分号。

由于其结构简单,CSV 文件可以被多种程序和服务所读取,比如文本编辑器、电子表格软件、数据库管理系统以及编程语言中的数据处理库。然而,处理大型或复杂的 CSV 文件仍然可能是一个挑战,尤其是当它们包含不规则的格式、缺失数据或特殊字符时。在这篇文章中,我们将探讨如何使用 Python 和 Pandas 库来有效地处理 CSV 文件,使这一过程变得简单而高效。

一、安装

使用 pip 安装它:

pip install pandas

或从国内清华源安装:

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple 二、示例 CSV 文件

假设我们有一个名为 “sales_data.csv” 的 CSV 文件,内容如下:

Date,Sales,Expenses 2024-01-01,2000,800 2024-01-02,1850,950 2024-01-03,2100,1000 2024-01-04,1500,700 2024-01-05,1950,850

这个简单的文件包含了一周内每天的销售和支出数据。

三、读取 CSV 文件

首先,我们使用 Pandas 读取 CSV 文件:

import pandas as pd df = pd.read_csv('sales_data.csv') print(df)

输出结果:

Date Sales Expenses 0 2024-01-01 2000 800 1 2024-01-02 1850 950 2 2024-01-03 2100 1000 3 2024-01-04 1500 700 4 2024-01-05 1950 850 四、数据选择和过滤

假设我们只对销售额超过1900的数据感兴趣:

high_sales = df[df['Sales'] > 1900] print(high_sales)

输出结果:

Date Sales Expenses 0 2024-01-01 2000 800 2 2024-01-03 2100 1000 4 2024-01-05 1950 850 五、缺失数据处理

如果我们的 CSV 文件中有缺失值,我们可以选择填充或删除它们。假设我们的 CSV 文件中有缺失值,我们可以这样处理:

# 假设df有缺失值 df_filled = df.fillna(0) print(df_filled)

或者删除含缺失值的行:

df_dropped = df.dropna() print(df_dropped) 六、数据聚合和分组

我们可以对数据进行分组,例如计算每天的总收益(销售减去支出):

df['Profit'] = df['Sales'] - df['Expenses'] daily_profit = df.groupby('Date')['Profit'].sum() print(daily_profit)

输出结果:

Date 2024-01-01 1200 2024-01-02 900 2024-01-03 1100 2024-01-04 800 2024-01-05 1100 Name: Profit, dtype: int64 七、数据导出

最后,我们可以将处理后的数据导出为一个新的 CSV 文件:

df.to_csv('processed_sales_data.csv', index=False) 八、其他 Python 库

除了 Pandas,还有一些其他 Python 库也可以用于处理 CSV 文件:

CSV 库:Python 的标准库,适用于简单的 CSV 文件读写操作。 NumPy:适合进行数值运算的大型数据集。 九、总结

在这篇文章中,我们详细探讨了如何使用 Python 和 Pandas 来处理 CSV 文件,从基础的读写操作到高级的数据处理技巧。无论你是数据科学的初学者,还是寻求提高工作效率的专业人士,Python 和 Pandas 都是处理 CSV 文件的理想选择。

相关博客文章 Python + Diagrams: 用代码输出高档系统架构图 Python + PyAutoGUI: 轻松实现用户界面自动化 Python + Cryptography : 给你的数据加把锁 用 Python 制作 ASCII 字符画 Python 中的浅拷贝和深拷贝 Python 字典 (Dictionary) 入门 从串联到 F-字符串:释放 Python 字符串格式化的力量 神奇的 Python 元类 (metaclass) 及其应用 Python 之禅 使用 Python 生成 Lorem lpsum 拉丁文本 相关书籍教程文章 《Python 代码片段集锦》- 检查是否包含指定字符串 《Python 代码片段集锦》- 格式化字符串 《Python 代码片段集锦》- 检查文件是否存在 《Python 代码片段集锦》- 统计元素在列表中出现的次数 《Python 代码片段集锦》- 移除列表中的重复项 《Python 代码片段集锦》- 获取列表的最后一个元素 《Python 代码片段集锦》- 检查列表是否为空 《Python 代码片段集锦》- 给列表添加新项 《Python 代码片段集锦》- 前言 官方公众号

💯本站文章同步发表在官方公众号 ReadingHere,关注公众号您将在第一时间了解本站最新文章和资讯。

❤️欢迎您关注本站官方公众号 ReadingHere

版权声明

本文由ReadingHere原创,未经ReadingHere授权不得转载、摘编。已经授权使用的,应在授权范围内使用,并注明来源: www.readinghere.com。违反上述声明者,ReadingHere将追究其相关法律责任。

交流合作

如需交流咨询或商务合作请扫描下图微信二维码联系。

~~~ 探索更多文章 ~~~ Java Visual Studio Code PowerPoint Word CSS .NET python Markdown reStructuredText Obsidian 思维导图 知识图谱 PS Obsidian插件 lorem 软件文化 AI 图形图像


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3