Python数据分析处理库（Pandas）基础篇（IDE为Pycharm）

您所在的位置：网站首页 › 怎么在pycharm中写代码 › Python数据分析处理库（Pandas）基础篇（IDE为Pycharm）

Python数据分析处理库（Pandas）基础篇（IDE为Pycharm）

2023-08-31 11:49| 来源: 网络整理| 查看: 265

前四篇博客将Python科学计算库（Numpy）中的常用的一些函数讲了一下，下面开始讲解Python中的数据分析预处理库（Pandas）的一些常用函数，当然会分好几篇博客，请大家耐心看完。如果大家想要我代码所使用的数据集，（注：本文所使用的数据集为titanic_train.csv数据集）可以加QQ：920133676或者发邮箱[email protected]。

（1）读取数据，输出结果为DataFrame格式，第一列表示索引号，并且最后将数据的行和列给出代码如下：

import pandas as pd df = pd.read_csv('titanic_train.csv') # 显示数据 print(df) 输出结果为： PassengerId Survived Pclass ... Fare Cabin Embarked 0 1 0 3 ... 7.2500 NaN S 1 2 1 1 ... 71.2833 C85 C 2 3 1 3 ... 7.9250 NaN S 3 4 1 1 ... 53.1000 C123 S 4 5 0 3 ... 8.0500 NaN S .. ... ... ... ... ... ... ... 886 887 0 2 ... 13.0000 NaN S 887 888 1 1 ... 30.0000 B42 S 888 889 0 3 ... 23.4500 NaN S 889 890 1 1 ... 30.0000 C148 C 890 891 0 3 ... 7.7500 NaN Q [891 rows x 12 columns]

DataFrame能调用的属性有很多，下面列举几种常用的：

import pandas as pd # 获取数据 df = pd.read_csv('titanic_train.csv') # 拿到每一列特征的名字 df1 = df.columns print(df1) # 显示每一列中数值的类型，其中Object表示Python中的字符串 df2 = df.dtypes print(df2) # 直接获取每一列的数值矩阵 df3 = df.values print(df3) 输出结果为： df1 = Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], dtype='object') df2 = PassengerId int64 Survived int64 Pclass int64 Name object Sex object Age float64 SibSp int64 Parch int64 Ticket object Fare float64 Cabin object Embarked object dtype: object df3 = [[1 0 3 ... 7.25 nan 'S'] [2 1 1 ... 71.2833 'C85' 'C'] [3 1 3 ... 7.925 nan 'S'] ... [889 0 3 ... 23.45 nan 'S'] [890 1 1 ... 30.0 'C148' 'C'] [891 0 3 ... 7.75 nan 'Q']]

（2）DataFrame数据的索引常用的几种方法

获取其中某一列指标，直接指定名字即可，也可以对其中的数数值进行操作，将结果单独按出来。代码如下：

import pandas as pd # 读取数据 df = pd.read_csv('titanic_train.csv') # 获取Age列的特征 age = df['Age'] # 输Age列的出前5行数据 print(age[:5]) # 将Age列单独拿出来,直接变为数组形式 age1 = age.values[:5] print(age1) 输出结果为： 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float64 age1 = [22. 38. 26. 35. 35.]

默认情况下是以数字（0-数据列数）为索引，我们也可以将索引改变，在此将Name列当作索引，代码如下：

import pandas as pd # 读取数据 df = pd.read_csv('titanic_train.csv') # 将索引改为用Name df = df.set_index('Name') print(df) 输出结果为： PassengerId ... Embarked Name ... Braund, Mr. Owen Harris 1 ... S Cumings, Mrs. John Bradley (Florence Briggs Tha... 2 ... C Heikkinen, Miss. Laina 3 ... S Futrelle, Mrs. Jacques Heath (Lily May Peel) 4 ... S Allen, Mr. William Henry 5 ... S ... ... ... ... Montvila, Rev. Juozas 887 ... S Graham, Miss. Margaret Edith 888 ... S Johnston, Miss. Catherine Helen "Carrie" 889 ... S Behr, Mr. Karl Howell 890 ... C Dooley, Mr. Patrick 891 ... Q [891 rows x 11 columns] Process finished with exit code 0

【本文地址】

Python数据分析处理库（Pandas）基础篇（IDE为Pycharm）

Python数据分析处理库（Pandas）基础篇（IDE为Pycharm）

今日新闻

推荐新闻