图解Pandas常用操作这一篇内容就够了！

您所在的位置：网站首页 › 象棋排序大小吃法图解 › 图解Pandas常用操作这一篇内容就够了！

图解Pandas常用操作这一篇内容就够了！

#图解Pandas常用操作这一篇内容就够了！| 来源: 网络整理| 查看: 265

本文内容整理来源于网络，联系侵删Pandas 展示

请看下表:

它描述了一个在线商店的不同产品线，共有四种不同的产品。与前面的例子不同，它可以用NumPy数组或Pandas DataFrame表示。但让我们看一下它的一些常见操作。

1. 排序

使用Pandas按列排序更具可读性，如下所示:

这里argsort(a[:，1])计算使a的第二列按升序排序的排列，然后a[…]相应地对a的行重新排序。Pandas可以一步完成。

2.按多列排序

如果我们需要使用weight列来对价格列进行排序，情况会变得更糟。这里有几个例子来说明我们的观点:

在NumPy中，我们先按重量排序，然后再按价格排序。稳定排序算法保证第一次排序的结果不会在第二次排序期间丢失。NumPy还有其他实现方法，但没有一种方法像Pandas那样简单优雅。

3. 添加一列

使用Pandas添加列在语法和架构上要好得多。下面的例子展示了如何操作:

Pandas不需要像NumPy那样为整个数组重新分配内存;它只是添加了对新列的引用，并更新了列名的` registry `。

4. 快速元素搜索

在NumPy数组中，即使你查找的是第一个元素，你仍然需要与数组大小成正比的时间来查找它。使用Pandas，你可以索引你期望被查询最多的列，并将搜索时间减少到一个常量。

index列有以下限制。

它需要内存和时间来构建。它是只读的(需要在每次追加或删除操作后重新构建)。这些值不需要是唯一的，但是只有当元素是唯一的时候加速才会发生。它需要预热:第一次查询比NumPy稍慢，但后续查询明显快得多。5. 按列连接（join）

如果你想从另一张表中获取基于同一列的信息，NumPy几乎没有任何帮助。Pandas更好，特别是对于1:n的关系。

Pandas join具有所有熟悉的“内”、“左”、“右”和“全外部”连接模式。

按列分组

数据分析中的另一个常见操作是按列分组。例如，要获得每种产品的总销量，你可以这样做:

除了sum之外，Pandas还支持各种聚合函数:mean、max、min、count等。

7. 数据透视表

Pandas最强大的功能之一是“枢轴”表。这有点像将多维空间投影到二维平面上。

虽然用NumPy当然可以实现它，但这个功能没有开箱即用，尽管它存在于所有主要的关系数据库和电子表格应用程序(Excel，WPS)中。

Pandas用df.pivot_table将分组和旋转结合在一个工具中。

简而言之，NumPy和Pandas的两个主要区别如下:

现在，让我们看看这些功能是否以性能损失为代价。

Pandas速度

我在Pandas的典型工作负载上对NumPy和Pandas进行了基准测试:5-100列，10³- 10⁸行，整数和浮点数。下面是1行和1亿行的结果:

看起来在每一次操作中，Pandas都比NumPy慢!

当列数增加时，情况不会改变(可以预见)。至于行数，依赖关系(在对数尺度下)如下所示:

对于小数组(少于100行)，Pandas似乎比NumPy慢30倍，对于大数组(超过100万行)则慢3倍。

怎么可能呢?也许是时候提交一个功能请求，建议Pandas通过df.column.values.sum()重新实现df.column.sum()了?这里的values属性提供了访问底层NumPy数组的方法，性能提升了3 ~ 30倍。

答案是否定的。Pandas在这些基本操作方面非常缓慢，因为它正确地处理了缺失值。Pandas需要NaNs (not-a-number)来实现所有这些类似数据库的机制，比如分组和旋转，而且这在现实世界中是很常见的。在Pandas中，我们做了大量工作来统一所有支持的数据类型对NaN的使用。根据定义(在CPU级别上强制执行)，nan+anything会得到nan。所以

>>> np.sum([1, np.nan, 2]) nan

但是

>>> pd.Series([1, np.nan, 2]).sum() 3.0

一个公平的比较是使用np.nansum代替np.sum,用np.nanmean而不是np.mean等等。突然间……

对于超过100万个元素的数组，Pandas的速度是NumPy的1.5倍。对于较小的数组，它仍然比NumPy慢15倍，但通常情况下，无论操作在0.5 ms还是0.05 ms内完成都没有太大关系——无论如何它都是快速的。

最重要的是，如果您100%确定列中没有缺失值，则使用df.column.values.sum()而不是df.column.sum()可以获得x3-x30的性能提升。在存在缺失值的情况下，Pandas的速度相当不错，甚至在巨大的数组(超过10个同质元素)方面优于NumPy。第二部分. Series 和 Index

Series是NumPy中的一维数组，是表示其列的DataFrame的基本组成部分。尽管与DataFrame相比，它的实际重要性正在降低(你可以在不知道Series是什么的情况下完美地解决许多实际问题)，但如果不首先学习Series和Index，你可能很难理解DataFrame是如何工作的。

在内部，Series将值存储在普通的NumPy vector中。因此，它继承了它的优点(紧凑的内存布局、快速的随机访问)和缺点(类型同质、缓慢的删除和插入)。最重要的是，Series允许使用类似于字典的结构index通过label访问它的值。标签可以是任何类型(通常是字符串和时间戳)。它们不必是唯一的，但唯一性是提高查找速度所必需的，许多操作都假定唯一性。

如你所见，现在每个元素都可以通过两种替代方式寻址:通过` label `(=使用索引)和通过` position `(=不使用索引):

按“位置”寻址有时被称为“位置索引”，这只是增加了混淆。

一对方括号是不够的。特别是:

S[2:3]不是解决元素2最方便的方式如果名称恰好是整数，s[1:3]就会产生歧义。它可能意味着名称1到3包含或位置索引1到3不包含。

为了解决这些问题，Pandas还有两种“风格”的方括号，你可以在下面看到:

.loc总是使用标号，并且包含间隔的两端。

.iloc总是使用“位置索引”并排除右端。

使用方括号而不是圆括号的目的是为了访问Python的切片约定:你可以使用单个或双冒号，其含义是熟悉的start:stop:step。像往常一样，缺少开始(结束)意味着从序列的开始(到结束)。step参数允许使用s.iloc[::2]引用偶数行，并使用s['Paris':'Oslo':-1]以相反的顺序获取元素。

它们还支持布尔索引(使用布尔数组进行索引)，如下图所示:

你可以在下图中看到它们如何支持` fancy indexing `(用整数数组进行索引):

Series最糟糕的地方在于它的视觉表现:出于某种原因，它没有一个很好的富文本外观，所以与DataFrame相比，它感觉像是二等公民:

我对这个Series做了补丁，让它看起来更好，如下所示:

垂直线表示这是一个Series，而不是一个DataFrame。Footer在这里被禁用了，但它可以用于显示dtype，特别是分类类型。

您还可以使用pdi.sidebyside(obj1, obj2，…)并排显示多个Series或dataframe:

pdi(代表pandas illustrated)是github上的一个开源库，具有本文所需的这个和其他功能。要使用它，就要写

pip install pandas-illustrated索引(Index)

负责通过标签获取元素的对象称为index。它非常快:无论你有5行还是50亿行，你都可以在常量时间内获取一行数据。

指数是一个真正的多态生物。默认情况下，当创建一个没有索引的序列(或DataFrame)时，它会初始化为一个惰性对象，类似于Python的range()。和range一样，几乎不使用任何内存，并且与位置索引无法区分。让我们用下面的代码创建一个包含一百万个元素的序列:

>>> s = pd.Series(np.zeros(10**6)) >>> s.index RangeIndex(start=0, stop=1000000, step=1) >>> s.index.memory_usage() # in bytes 128 # the same as for Series([0.])

现在，如果我们删除一个元素，索引隐式地转换为类似于dict的结构，如下所示:

>>> s.drop(1, inplace=True) >>> s.index Int64Index([ 0, 2, 3, 4, 5, 6, 7, ... 999993, 999994, 999995, 999996, 999997, 999998, 999999], dtype='int64', length=999999) >>> s.index.memory_usage() 7999992

该结构消耗8Mb内存!为了摆脱它，回到轻量级的类range结构，添加如下代码:

>>> s.reset_index(drop=True, inplace=True) >>> s.index RangeIndex(start=0, stop=999999, step=1) >>> s.index.memory_usage() 128

如果你不熟悉Pandas，你可能想知道为什么Pandas自己没有做到这一点?好吧，对于非数字标签，有一点很明显:为什么(以及如何)Pandas在删除一行后，会重新标记所有后续的行?对于数值型标签，答案就有点复杂了。

首先，正如我们已经看到的，Pandas允许您纯粹按位置引用行，因此，如果您想在删除第3行之后定位第5行，则可以无需重新索引(这就是iloc的作用)。

其次，保留原始标签是一种与过去时刻保持联系的方法，就像“保存游戏”按钮一样。假设您有一个100x1000000的大表，需要查找一些数据。你正在一个接一个地进行几次查询，每次都缩小了搜索范围，但只查看了一小部分列，因为同时查看数百个字段是不切实际的。现在您已经找到感兴趣的行，您希望在原始表中查看有关它们的所有信息。数字索引可以帮助您立即获得它，而无需任何额外的努力。

一般来说，在索引中保持值的唯一性是一个好主意。例如，在索引中存在重复值时，查找速度不会得到提升。Pandas不像关系型数据库那样有“唯一约束”(该功能仍然是实验性的)，但它有检查索引中的值是否唯一的函数，并以各种方式消除重复。

有时，一列不足以唯一标识一行。例如，同一个名字的城市有时会碰巧出现在不同的国家，甚至是同一个国家的不同地区。所以(城市，州)是一个比城市更好的标识一个地方的候选者。在数据库中，这被称为“复合主键”。在Pandas中，它被称为多索引(参见下面的第4部分)，索引中的每一列都被称为“级别”。

索引的另一个重要特性是不可变。与DataFrame中的普通列不同，你不能就地更改它。索引中的任何更改都涉及从旧索引中获取数据，修改它，并将新数据作为新索引重新附加。通常情况下，它是透明的，这就是为什么不能直接写df.City.name = ' city '，而必须写一个不那么明显的df.rename(columns={' A ': ' A '}， inplace=True)

Index有一个名称(在MultiIndex的情况下，每个级别都有一个名称)。不幸的是，这个名称在Pandas中没有得到充分使用。一旦你在索引中包含了这一列，就不能再使用df了。不再使用列名表示法，并且必须恢复为可读性较差的df。指数还是更通用的df。loc对于多索引，情况更糟。一个明显的例外是df。Merge -你可以通过名称指定要合并的列，无论它是否在索引中。

同样的索引机制用于标记dataframe的行和列，以及序列。

按值查找元素

Series内部由一个NumPy数组和一个类似数组的结构index组成，如下所示:

Index提供了一种通过标签查找值的方便方法。那么如何通过值查找标签呢?

s.index[s.tolist().find(x)] # faster for len(s) < 1000 s.index[np.where(s.values==x)[0][0]] # faster for len(s) > 1000

我编写了find()和findall()两个简单的封装器，它们运行速度快(因为它们会根据序列的大小自动选择实际的命令)，而且使用起来更方便。代码如下所示:

>>> import pdi >>> pdi.find(s, 2) 'penguin' >>> pdi.findall(s, 4) Index(['cat', 'dog'], dtype='object')缺失值

Pandas开发人员特别关注缺失值。通常，你通过向read_csv提供一个标志来接收一个带有NaNs的dataframe。否则，可以在构造函数或赋值运算符中使用None(尽管不同数据类型的实现略有不同，但它仍然有效)。这张图片有助于解释这个概念:

你可以使用NaNs做的第一件事是了解你是否有NaNs。从上图可以看出，isna()生成了一个布尔数组，而.sum()给出了缺失值的总数。

现在你知道了它们的存在，你可以选择用常量值填充它们或通过插值来一次性删除它们，如下所示:

另一方面，你可以继续使用它们。大多数Pandas函数会很高兴地忽略缺失值，如下图所示:

更高级的函数(median、rank、quantile等)也可以做到这一点。

算术运算与索引对齐:

如果索引中存在非唯一值，则结果不一致。不要对索引不唯一的序列使用算术运算。

比较

比较有缺失值的数组可能会比较棘手。下面是一个例子:

>>> np.all(pd.Series([1., None, 3.]) == pd.Series([1., None, 3.])) False >>> np.all(pd.Series([1, None, 3], dtype='Int64') == pd.Series([1, None, 3], dtype='Int64')) True >>> np.all(pd.Series(['a', None, 'c']) == pd.Series(['a', None, 'c'])) False

为了正确地比较nan，需要用数组中一定没有的元素替换nan。例如，使用-1或∞:

>>> np.all(s1.fillna(np.inf) == s2.fillna(np.inf)) # works for all dtypes True

或者，更好的做法是使用NumPy或Pandas的标准比较函数:

>>> s = pd.Series([1., None, 3.]) >>> np.array_equal(s.values, s.values, equal_nan=True) True >>> len(s.compare(s)) == 0 True

这里，compare函数返回一个差异列表(实际上是一个DataFrame)， array_equal则直接返回一个布尔值。

当比较混合类型的DataFrames时，NumPy比较失败(issue #19205)，而Pandas工作得很好。如下所示:

>>> df = pd.DataFrame({'a': [1., None, 3.], 'b': ['x', None, 'z']}) >>> np.array_equal(df.values, df.values, equal_nan=True) TypeError >>> len(df.compare(df)) == 0 True追加、插入、删除

虽然Series对象被认为是size不可变的，但它可以在原地追加、插入和删除元素，但所有这些操作都是:

慢，因为它们需要为整个对象重新分配内存和更新索引。非常不方便。

下面是插入值的一种方式和删除值的两种方式:

第二种删除值的方法(通过drop)比较慢，并且在索引中存在非唯一值时可能会导致复杂的错误。

Pandas有df.insert方法，但它只能将列(而不是行)插入到dataframe中(并且对series不起作用)。

添加和插入的另一种方法是使用iloc对DataFrame进行切片，应用必要的转换，然后使用concat将其放回。我实现了一个名为insert的函数，可以自动执行这个过程:

注意(就像在df.insert中一样)插入位置由位置0

要按元素的名称插入，可以合并pdi。用pdi查找。插入，如下所示:

请注意，unlikedf.insert、pdi.insert返回一个副本，而不是原地修改Series/DataFrame

统计数据

Pandas提供了全方位的统计函数。它们可以让您了解百万元素序列或DataFrame中的内容，而无需手动滚动数据。

所有Pandas统计函数都会忽略NaNs，如下所示:

注意，Pandas std给出的结果与NumPy std不同，如下所示:

>>> pd.Series([1, 2]).std()0.7071067811865476>>> pd.Series([1, 2]).values.std()0.5

这是因为NumPy std默认使用N作为分母，而Pandas std默认使用N-1作为分母。两个std都有一个名为ddof (` delta degrees of freedom `)的参数，NumPy默认为0,Pandas默认为1，这可以使结果一致。N-1是你通常想要的值(在均值未知的情况下估计样本的偏差)。这里有一篇维基百科的文章详细介绍了贝塞尔的修正。

由于序列中的每个元素都可以通过标签或位置索引访问，因此argmin (argmax)有一个姐妹函数idxmin (idxmax)，如下图所示:

下面是Pandas的自描述统计函数供参考:

std:样本标准差var，无偏方差sem，均值的无偏标准误差quantile分位数，样本分位数(s.quantile(0.5)≈s.median())oode是出现频率最高的值默认为Nlargest和nsmallest，按出现顺序排列diff，第一个离散差分cumsum 和 cumprod、cumulative sum和productcummin和cummax，累积最小值和最大值

以及一些更专业的统计函数:

pct_change，当前元素与前一个元素之间的变化百分比skew偏态，无偏态(三阶矩)kurt或kurtosis，无偏峰度(四阶矩)cov、corr和autocorr、协方差、相关和自相关rolling滚动窗口、加权窗口和指数加权窗口重复数据

在检测和处理重复数据时需要特别小心，如下图所示:

drop_duplicates和duplication可以保留最后一次出现的副本，而不是第一次出现的副本。

请注意，s.a uint()比np快。唯一性(O(N) vs O(NlogN))，它会保留顺序，而不会返回排序结果。独特的。

缺失值被视为普通值，有时可能会导致令人惊讶的结果。

如果你想排除nan，需要显式地这样做。在这个例子中，是s.l opdropna().is_unique == True。

还有一类单调函数，它们的名字是自描述的:

s.is_monotonic_increasing ()s.is_monotonic_decreasing ()s._strict_monotonic_increasing ()s._string_monotonic_decreasing ()s.is_monotonic()。这是意料之外的，出于某种原因，这是s.is_monotonic_increasing()。它只对单调递减序列返回False。分组

在数据处理中，一个常见的操作是计算一些统计量，不是针对整个数据集，而是针对其中的某些组。第一步是通过提供将一系列(或一个dataframe)分解为组的标准来定义一个“智能对象”。这个`智能对象`没有立即的表示，但可以像Series一样查询它，以获得每个组的某个属性，如下图所示:

在这个例子中，我们根据数值除以10的整数部分将序列分成三组。对于每个组，我们请求每个组中元素的和、元素的数量以及平均值。

除了这些聚合函数，您还可以根据特定元素在组中的位置或相对值访问它们。如下所示:

你也可以使用g.ag (['min'， 'max'])一次调用计算多个函数，或者使用g.c describe()一次显示一堆统计函数。

如果这些还不够，你还可以通过自己的Python函数传递数据。它可以是:

一个函数f，它接受一个组x(一个Series对象)并生成一个值(例如sum())与g.eapply (f)一起使用。

一个函数f，它接受一个组x(一个Series对象)，并与g.transform(f)生成一个大小与x相同的Series对象(例如cumsum())。

在上面的例子中，输入数据是有序的。groupby不需要这样做。实际上，如果分组中的元素不是连续存储的，它也同样有效，因此它更接近于collections.defaultdict，而不是itertools.groupby。它总是返回一个没有重复项的索引。

与defaultdict和关系数据库GROUP BY子句不同，Pandas groupby按组名对结果进行排序。可以用sort=False来禁用它。

免责声明:实际上，g.apply(f)比上面描述的更通用:

如果f(x)返回与x大小相同的序列，它可以模拟transform如果f(x)返回一系列不同大小或不同的dataframe，则会得到一个具有相应多索引的序列。

但文档警告说，这些使用方法可能比相应的transform和agg方法慢，所以要小心。

第三部分. DataFrames

Pandas的主要数据结构是DataFrame。它将一个二维数组与它的行和列的标签捆绑在一起。它由一系列对象组成(具有共享索引)，每个对象表示一列，可能具有不同的dtype。

读写CSV文件

构造DataFrame的一种常用方法是读取csv(逗号分隔值)文件，如下图所示:

pd.read_csv()函数是一个完全自动化且可疯狂定制的工具。如果你只想学习Pandas的一件事，那就学习使用read_csv——它会有回报的:)。

下面是一个解析非标准的.csv文件的例子:

以及一些简要描述:

因为CSV没有严格的规范，所以有时需要一些试错才能正确地阅读它。read_csv最酷的地方在于它会自动检测很多东西:

列名和类型布尔值的表示缺失值的表示等。

与其他自动化一样，你最好确保它做了正确的事情。如果在Jupyter单元中简单地编写df的结果碰巧太长(或太不完整)，您可以尝试以下操作:

df.head(5)或df[:5]显示前5行df.dtypes返回列的类型df.shape返回行数和列数http://Df.info()汇总所有相关信息

将一列或几列设置为索引是一个好主意。下图展示了这个过程:

Index在Pandas中有很多用途:

算术运算按索引对齐它使按该列进行的查找更快，等等。

所有这些都是以较高的内存消耗和不太明显的语法为代价的。

构建DataFrame

另一种选择是从内存中已经存储的数据中构建一个dataframe。它的构造函数非常全能，可以转换(或包装)任何类型的数据:

在第一种情况下，在没有行标签的情况下，Pandas用连续的整数标记行。在第二种情况下，它对行和列都进行了相同的操作。为Pandas提供列的名称总是一个好主意，而不是整数标签(使用columns参数)，有时也可以提供行(使用index参数，尽管rows听起来可能更直观)。这张图片会有帮助:

不幸的是，无法在DataFrame构造函数中为索引列设置名称，所以唯一的选择是手动指定，例如，df.index.name = '城市名称'

下一种方法是使用NumPy向量组成的字典或二维NumPy数组构造一个DataFrame:

请注意，在第二种情况下，人口数量的值被转换为浮点数。实际上，它在之前的构建NumPy数组时就发生过。这里需要注意的另一件事是，从2D NumPy数组构建dataframe默认是视图。这意味着改变原始数组中的值会改变dataframe，反之亦然。另外，它节省了内存。

第一种情况(NumPy向量组成的字典)也可以启用这种模式，设置copy=False即可。不过，它非常脆弱。简单的操作就可以把它变成副本而不需要通知。

另外两个(不太有用的)创建DataFrame的选项是:

从一个dict列表(其中每个dict表示一行，其键是列名，其值是相应的单元格值)来自由Series组成的dict(其中每个Series表示一列;默认情况下，可以让它返回一个copy=False的视图)。

如果你“动态”注册流数据，最好的选择是使用列表的dict或列表的列表，因为Python会透明地在列表末尾预分配空间，以便快速追加。NumPy数组和Pandas dataframes都不能做到这一点。另一种可能性(如果你事先知道行数)是用DataFrame(np.zeros)之类的东西手动预分配内存。

DataFrames的基本操作

DataFrame最好的地方(在我看来)是你可以:

轻松访问其列，如d.area返回列值(或者df[' Area ']——适用于包含空格的列名)将列作为自变量进行操作，例如使用afterdf. population /= 10**6人口以百万计存储，下面的命令根据现有列中的值创建一个名为` density `的新列。更多信息见下图:

注意，创建新列时，即使列名中不包含空格，也必须使用方括号。

此外，你可以对不同dataframe中的列使用算术操作，只要它们的行具有有意义的标签，如下所示:

索引DataFrames

正如我们在本系列中已经看到的，普通的方括号不足以满足索引的所有需求。你不能通过名称访问行，不能通过位置索引访问不相交的行，你甚至不能引用单个单元格，因为df['x'， 'y']是为多索引保留的!

为了满足这些需求，dataframes，就像series一样，有两种可选的索引模式:按标签索引的loc和按位置索引的iloc。

在Pandas中，引用多行/多列是一个副本，而不是视图。但它是一种特殊的复制，允许赋值作为一个整体:

df.loc[‘a’]=10 works (一行作为一个整体是一个可写的)df.loc[‘a’][‘A’]=10 works (元素访问传播到原始df)df.loc[‘a’:’b’] = 10 works (assigning to a subar将整个作品赋值给一个子数组)df.loc[‘a’:’b’][‘A’] = 10 doesn’t (对其元素赋值不会).

在最后一种情况下，该值只会被设置在切片的副本上，而不会反映在原始df上(会相应地显示一个警告)。

根据不同的背景，有不同的解决方案:

你想要改变原始的df。然后使用df。loc[' a': ' b '， ' a'] = 10你故意创建了一个副本，然后想要处理这个副本:df1 = df.loc[' a ': ' b '];df1[' A ']=10 # SettingWithCopy warning要在这种情况下消除警告，请使其成为一个真正的副本:df1 = df.loc[' A ': ' b '].copy();df1 [A] = 10

Pandas还支持一种方便的NumPy语法来进行布尔索引。

当使用多个条件时，必须将它们括起来，如下所示:

当你期望返回一个值时，需要特别注意。

因为可能有多行匹配条件，所以loc返回一个序列。要从中得到标量值，你可以使用:

float(s)或更通用的s.e item()，除非序列中只有一个值，否则都会引发ValueError

S.iloc[0]，仅在没有找到时引发异常;此外，它是唯一支持赋值的函数:df[…].Iloc[0] = 100，但当你想修改所有匹配时，肯定不需要它:df[…]= 100。

或者，你可以使用基于字符串的查询:

df.query (' name = =“Vienna”)

df.query('population>1e6 and area

【本文地址】

图解Pandas常用操作这一篇内容就够了！

图解Pandas常用操作这一篇内容就够了！

今日新闻

推荐新闻