了解下一个流行的 Python 第三方库

您所在的位置:网站首页 python命令大全下载 了解下一个流行的 Python 第三方库

了解下一个流行的 Python 第三方库

2023-03-24 07:04| 来源: 网络整理| 查看: 265

导读 Pandas 是一个十分流行的 Python 第三方库。本文介绍了 Pandas 库中的一些特性和函数,并且我们鼓励读者亲手使用 Pandas 库,来解决实际的业务问题。

Pandas 为 Python 中数据分析提供了基础和高级的构建组件。Pandas 库是用于数据分析与数据操作的最强大和最灵活的开源分析工具之一,并且它还提供了用于建模和操作表格数据(以行和列组织的数据)的数据结构。

Pandas 库有两个主要的数据结构:第一个是 “系列Series”,该数据结构能够很方便地从 Python 数组或字典中按位置或指定的索引名称来检索数据;第二个是“数据帧DataFrames”,该数据结构将数据存储在行和列中。列可以通过列名访问,行通过索引访问。列可以有不同类型的数据,包括列表、字典、序列、数据帧、NumPy 数组等。

Pandas 库可以处理各种文件格式

有各种各样的文件格式。用于数据分析的工具必须能够提供处理各种文件格式的方法。

Pandas 可以读取各种文件格式,例如 CSV 文件、JSON 文件、XML 文件、Parquet 文件、SQL 文件,详见下表。

写入 读取 CSV 文件 to_csv 函数 read_csv 函数 JSON 文件 to_json 函数 read_json 函数 Parquet 文件 to_parquet 函数 read_parquet 函数 SQL 文件 to_sql 函数 read_sql 函数,read_sql_query 函数,read_sql_table 函数 XML 文件 to_xml 函数 read_xml 函数 使用 Pandas 进行数据清理

在现实场景中,很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要对使数据分析更加准确,就需要对这些没有用的数据进行处理。此外,数据还会有需要 屏蔽mask 的敏感和机密信息。接下来,Pandas 提供了清理、丢弃、替换、屏蔽等方法,来处理这些坏数据。

Pandas 清洗空值: a. 空行可以使用 df.dropna(inplace=True) 方法来删除。

b. 空值可以使用 df.fillna(, inplace=True) 方法来替换。还可以指定某一个列来替换该列的空数据。

Pandas 屏蔽数据: c. 要屏蔽所有不满足条件 my_list.where(my_list df.drop_duplicates(‘’, keep = False) df.drop_duplicates(‘’, keep = ‘first’) df.drop_duplicates(‘’, keep = ‘last’)

使用 Pandas 进行数据分析

下面的表格列出了 Pandas 中进行数据分析的各种函数,以及其语法。(请注意:df 代表一个 数据帧DataFrame 数据结构的实例。)

语法 描述 df.head(x) head() 函数用于读取前面的 x 行,如果不填参数 x,默认返回 5 行 df.tail(x) tail() 函数用于读取尾部的 x 行,如果不填参数 x ,默认返回最后 5 行,空行各个字段的值返回 NaN loc(x:y) Loc 函数返回指定行的数据,也可以对数据进行切片 groupby('') 对指定列的数据进行分组 df['column'].sum() 计算指定列数据的总和 df['column']. mean() 计算指定列数据的算术平均值 df['column'].min() 计算指定列数据的最小值 df['column'].max() 计算指定列数据的最大值 df.sort_values(['column']) 在指定列上根据数值进行排序,默认升序 df.size 返回元素的个数,即为行数 * 列数 df.describe 返回对各列的统计汇总 pd.crosstab(df['column1'], df['column2'], margins = True) 创建 column1 和 column2 的交叉表 df.duplicated([column1, 'column2']) 根据 column1 和 column2 中的重复值,返回 True 或 False Pandas 的优点 支持多索引(层次索引),方便分析多维数据。 支持数据透视表的创建,堆栈和取消堆栈操作。 可以使用 Pandas 处理有限值的分类数据。 支持分组和聚合运算。 可以禁用排序。 支持行级过滤(获取满足过滤条件的行)和列级过滤(只选择需要的列)。 有助于重塑数据集(数组的维度变换)。还可以转置数组的值,并转换为列表。当你使用 Python 处理数据时,可以将 Pandas 数据帧转换为多维 NumPy 数组。 支持面向标签的数据切片。 Pandas 的不足

Pandas 的代码和语法与 Python 不同,所以人们需要额外再学习 Pandas。此外,相较于 Pandas,像三维数据这样的高维数据会在 NumPy 等其他库有更好的处理。

总结

Pandas 能够大幅提升数据分析的效率。它与其他库的兼容性使它在其他 Python 库中都能有效地使用。

原文来自:http://www.linuxeden.com/a/116288

本文地址:https://www.linuxprobe.com/python-library-pandas.html编辑:王艳敏,审核员:逄增宝

Linux命令大全:https://www.linuxcool.com/

Linux系统大全:https://www.linuxdown.com/

红帽认证RHCE考试心得:https://www.rhce.net/

为您推荐一些与本文相关的文章:Serverless 架构的演进《精通Perl(Mastering Perl) 》pdf版电子书免费下载Linux 爸爸怒怼社交媒体捷讯:陈仕颖8月23日深圳顺利通过RHCE认证。被判定为非法打压手机芯片市场竞争Ubuntu 16.04 LTS值得关注的新特性和改进盘点《GNU\Linux嵌入式快速编程》pdf电子书免费下载盘点中国第一代程序员,看尽中国软件的前世今生!Shell脚本编程入门加入人工智能大战 三星正式发布AI助手Bixby 相关文章[点此投稿] 怎样在linux或unix服务器上安装、使用MySQL 怎样在linux或unix服务器上安装、使用MySQL 2021-01-10 0 个评论 Lua打印乘法表 Lua打印乘法表 2022-07-25 0 个评论 提高Web开发速度技巧 提高Web开发速度技巧 2018-10-27 0 个评论 简单介绍pycharm中执行.sh文件的方法步骤 简单介绍pycharm中执行.sh文件的方法步骤 2023-03-01 0 个评论 案例:数据备份工具 ZBackup 案例:数据备份工具 ZBackup 2018-09-28 0 个评论

转载必需保留本文链接: https://www.linuxprobe.com/python-library-pandas.html

红帽RHCE认证:https://www.rhce.net

Linux命令大全:https://www.linuxcool.com

Linux系统大全:https://www.linuxdown.com

本文依据CC-BY-NC-SA 3.0协议发布,竭诚为读者提供Linux视频教程、Linux学习资料以及红帽考试资料等优质学习资源。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3