Python数据分析处理库(Pandas)基础篇(IDE为Pycharm)

您所在的位置:网站首页 怎么在pycharm中写代码 Python数据分析处理库(Pandas)基础篇(IDE为Pycharm)

Python数据分析处理库(Pandas)基础篇(IDE为Pycharm)

2023-08-31 11:49| 来源: 网络整理| 查看: 265

前四篇博客将Python科学计算库(Numpy)中的常用的一些函数讲了一下,下面开始讲解Python中的数据分析预处理库(Pandas)的一些常用函数,当然会分好几篇博客,请大家耐心看完。如果大家想要我代码所使用的数据集,(注:本文所使用的数据集为titanic_train.csv数据集)可以加QQ:920133676或者发邮箱[email protected]

        (1)读取数据,输出结果为DataFrame格式,第一列表示索引号,并且最后将数据的行和列给出代码如下:

import pandas as pd df = pd.read_csv('titanic_train.csv') # 显示数据 print(df) 输出结果为: PassengerId Survived Pclass ... Fare Cabin Embarked 0 1 0 3 ... 7.2500 NaN S 1 2 1 1 ... 71.2833 C85 C 2 3 1 3 ... 7.9250 NaN S 3 4 1 1 ... 53.1000 C123 S 4 5 0 3 ... 8.0500 NaN S .. ... ... ... ... ... ... ... 886 887 0 2 ... 13.0000 NaN S 887 888 1 1 ... 30.0000 B42 S 888 889 0 3 ... 23.4500 NaN S 889 890 1 1 ... 30.0000 C148 C 890 891 0 3 ... 7.7500 NaN Q [891 rows x 12 columns]

        DataFrame能调用的属性有很多,下面列举几种常用的:

import pandas as pd # 获取数据 df = pd.read_csv('titanic_train.csv') # 拿到每一列特征的名字 df1 = df.columns print(df1) # 显示每一列中数值的类型,其中Object表示Python中的字符串 df2 = df.dtypes print(df2) # 直接获取每一列的数值矩阵 df3 = df.values print(df3) 输出结果为: df1 = Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], dtype='object') df2 = PassengerId int64 Survived int64 Pclass int64 Name object Sex object Age float64 SibSp int64 Parch int64 Ticket object Fare float64 Cabin object Embarked object dtype: object df3 = [[1 0 3 ... 7.25 nan 'S'] [2 1 1 ... 71.2833 'C85' 'C'] [3 1 3 ... 7.925 nan 'S'] ... [889 0 3 ... 23.45 nan 'S'] [890 1 1 ... 30.0 'C148' 'C'] [891 0 3 ... 7.75 nan 'Q']]

        (2)DataFrame数据的索引常用的几种方法

        获取其中某一列指标,直接指定名字即可,也可以对其中的数数值进行操作,将结果单独按出来。代码如下:

import pandas as pd # 读取数据 df = pd.read_csv('titanic_train.csv') # 获取Age列的特征 age = df['Age'] # 输Age列的出前5行数据 print(age[:5]) # 将Age列单独拿出来,直接变为数组形式 age1 = age.values[:5] print(age1) 输出结果为: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float64 age1 = [22. 38. 26. 35. 35.]

        默认情况下是以数字(0-数据列数)为索引,我们也可以将索引改变,在此将Name列当作索引,代码如下:

import pandas as pd # 读取数据 df = pd.read_csv('titanic_train.csv') # 将索引改为用Name df = df.set_index('Name') print(df) 输出结果为: PassengerId ... Embarked Name ... Braund, Mr. Owen Harris 1 ... S Cumings, Mrs. John Bradley (Florence Briggs Tha... 2 ... C Heikkinen, Miss. Laina 3 ... S Futrelle, Mrs. Jacques Heath (Lily May Peel) 4 ... S Allen, Mr. William Henry 5 ... S ... ... ... ... Montvila, Rev. Juozas 887 ... S Graham, Miss. Margaret Edith 888 ... S Johnston, Miss. Catherine Helen "Carrie" 889 ... S Behr, Mr. Karl Howell 890 ... C Dooley, Mr. Patrick 891 ... Q [891 rows x 11 columns] Process finished with exit code 0



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3