12个Pandas数据处理高频操作

#12个Pandas数据处理高频操作| 来源: 网络整理| 查看: 265

简单说说

Pandas是一个快速、强大、灵活且易于使用的开源数据分析和操作工具，在Python环境下，我们可以通过pip直接进行安装。

pip install pandas

在Python代码中使用pandas首先需要导入，：

import pandas as pd

创建一个示例数据：

# 统计一行/一列数据的负数出现的次数 df = pd.DataFrame( {'a':[1,-3,0,1,3], 'b':[-1,0,1,5,1], 'c':[0,-2,0,-9,0]}) df

总结分享> 1 统计一行/一列数据的负数出现的次数# 获取到每一行的复数个数 # 要获取列的话，将axis改成0即可 num_list = (df < 0).astype(int).sum(axis=1) num_list

> 2 让dataframe里面的正数全部变为0# 直接了当 df[df>0] = 0 df

> 3 统计某列中各元素出现次数默认情况，直接统计出指定列各元素值出现的次数。# 默认情况，统计b列各元素出现次数 df['b'].value_counts()

最好奇的bins参数，按bins分割区间，统计落在各区间内元素个数# 按指定区间个数bin，元素起始值分割区间，统计表格中落在各区间内元素个数 df['b'].value_counts(bins=3)

normalize参数，计算各元素出现次数占比# normalize参数出现次数/总数据个数 df['b'].value_counts(normalize=True)

还有sort和ascending，可以按指定方式对统计结果进行排序。

> 4 修改表头和索引修改表头名称# 修改表头名称 columns = {'a': 'A', 'b': 'B'} df.rename(columns=columns, inplace=True) df

设置特殊索引# 设置特殊索引 df.index = ['a', 'b', 'c', 'd', 'e'] df

删除索引# 删除索引 df.reset_index(drop=True, inplace=True) df

> 5 修改列所在位置insert+pop

insert在指定位置插入某列值；pop按列名取出某列（同时会删掉该列）。

# 将A列移到最后 # 新增列位置，新增列名，新增列的数值 df.insert(2,'A',df.pop('A')) df

> 6 常用查询方法query直接查询# 找出c所有c值小于0的行 df.query("c

【本文地址】

今日新闻