python之Dataframe:多级表头和索引灵活的处理(一)

您所在的位置:网站首页 sql生成表名称怎么做出来 python之Dataframe:多级表头和索引灵活的处理(一)

python之Dataframe:多级表头和索引灵活的处理(一)

2024-07-12 10:08| 来源: 网络整理| 查看: 265

DataFrame俗称数据框,和一般的Excel表格没有多大区别,一般包含索引(行)和表头(列),在python中,由pandas包提供。

这是一个最简单的数据框类型,只包含一级索引和一级表头 如果你的python还没有这个包,请执行以下命令安装:

pip install pandas

这一节,我们要处理的主题是:多级表头和多级目录 先看看他们长什么样子:

表格1:包含二级表头和一级索引

表格二:包含二级索引和一级表头

在Excel里面看这些表格,还没什么特别的感觉,但是,今天我们要在python中来处理这样的表格,下面就开始吧!先说一下内容大概:

1. 如何构造出这样的表格 2. 对于这样的多级表格,如何修改,排序等常见操作 1. 如何构造多级表格

多级表格,常来自于实际的需要,许多时候,我们的数据并不是单一的表现形式,会有对比、计算、时间序列等因素。我先给出两个一级表格(也就是我们数据的原始形式)。

日期 渠道 用户数 会话数 唯一身份浏览量 0 20180607 (Other) 3839 7324 15223 1 20180607 Direct 30060 35364 72330 2 20180607 Display 2 2 2 3 20180607 Organic Search 50636 57410 144043 4 20180607 Referral 2845 3370 8380 5 20180607 Social 1310 1564 3480 6 20180607 shareasale.com 214 238 568 日期 渠道 用户数 会话数 唯一身份浏览量 0 20180531 (Other) 3756 6351 13825 1 20180531 Direct 33195 38812 78479 2 20180531 Display 2 2 2 3 20180531 Email 1 1 3 4 20180531 Organic Search 56003 64026 158187 5 20180531 Referral 3185 3769 9252 6 20180531 Social 3380 3690 7698 7 20180531 shareasale.com 241 268 658

Excel文件链接:https://pan.baidu.com/s/11xIBEm-jfj6o0Hz278Alvw 密码:b515 你需要将这个表格文件下载下来,使用pandas包的read_excel()函数读入。

这2个数据表格分别是2018年6月7号各个渠道的流量数据以及上周同期的数据,我们的目的是要做对比,把这2个表格的数据放到一起,方便对比查看。但我们用脑袋想一下,最方便对比的数据应该是什么样的呢?

前面我们已经给出了2个示例,分别是2级表头和2级索引,其实都起到了对比的作用。下面,我们就分别讲一下这2个表格是怎么做出来的。

1.1 我们先来构建多级表头,如下这样格式 表格1:包含二级表头和一级索引 导入包,读入数据 import pandas as pd from pandas import DataFrame channel = pd.read_excel('处理多级表格-示例数据.xlsx',sheetname=0) channel_last_week = pd.read_excel('处理多级表格-示例数据.xlsx', sheetname=1)

一般pandas包导入后会给个pd的别名。读入xlsx格式的数据使用函数pd.read_excel(),第一个参数是文件所在路径, 参数sheetname是指读入这个工作簿当中的哪个sheet,这里有2种写法:第一种是给出sheet的索引号(从左至右从0开始计数),第二种是给出sheet的具体名称,比如:

channel = pd.read_excel('处理多级表格-示例数据.xlsx',sheetname='20180607') 我们先讲一种最常规的方法:拼接法 显然,我们有三个指标是需要对比的:用户数、会话数、唯一身份浏览量 所以,我们先把渠道设置为索引,使用函数set_index() channel.set_index('渠道', inplace=True) channel_last_week.set_index('渠道', inplace=True)

注:在pandas中,一般set_xxx类型的函数都会有一个参数inplace,代表是在原对象上修改,还是返回一个新的对象。 这时候,我们的channel就变成了下面这样

image.png 我们来看一下它的index和columns

channel.index Out[74]: Index(['(Other)', 'Direct', 'Display', 'Organic Search', 'Referral', 'Social', 'shareasale.com'], dtype='object', name='渠道') channel.columns Out[75]: Index(['日期', '用户数', '会话数', '唯一身份浏览量'], dtype='object')

如果细心的朋友一定会发现,index和columns的值其实都是属于同一个类: pandas.core.indexes.base.Index

type(channel.columns) Out[76]: pandas.core.indexes.base.Index type(channel.index) Out[77]: pandas.core.indexes.base.Index 现在来看这个日期,它里面的值应该是作为表头的,用来对比三个指标,所以,这里我们可以索性把它从columns中删除掉,到时候直接把它的值拿出来备用 yd,yd_la = '20180607','20180531' channel.drop('日期', axis=1, inplace=True) channel_last_week.drop('日期', axis=1, inplace=True)

第一行中两个变量间加逗号的写法,是一行同时实现2个及以上变量赋值的快捷写法,按顺序一一对应。 可能有人会说,我直接输入日期字符串会显得不够自动化和程序化,万一哪天传入的数据里面日期不是这两个呢? 其实你也可以使用如下的方法获取

yd,yd_la = channel.iloc[0,0],channel_last_week.iloc[0,0]

iloc是根据位置进行切片选择的,你也可以使用键名称和索引名称选择

yd,yd_la = channel['日期']['Organic Search'],channel_last_week['日期']['Organic Search']

另外,删除列,除了使用drop外,还可以直接这样操作

del channel['日期']

这种写法我直接在原对象上删除,不像drop还可以选择返回删除后的新对象(不影响原对象) drop除了可以删除列,还可以删除行,只需要设置axis=0(默认),输入索引值即可,比如

channel.drop('Direct')

删除了索引值为Direct的行。 现在我们的channal对象是这样的了

image.png 开始构造,最直观的做法就是把两个表中同一个指标的数据合并在一起,并且将日期作为底层表头,指标作为第二层表头 DataFrame的合并函数有好几个:merge(基于column名称)、append、concat(基于index的值)...这里我们选择concat. df_user = pd.concat([channel_last_week['用户数'], channel['用户数']], keys=[yd_la, yd], axis=1).fillna(0)

先看一下结果:

image.png

请忽略小数(显示问题)。可以看到,左边是上周同期的,右边是6月7号的。 concat的参数:

第一个list类型,元素是要合并的DataFrame; keys起到的作用是,其值作为合并后新DataFrame的列名,axis=1的作用是横着合并(等于0的时候代表* 竖这合并,相当于拼接在下方); 最后有个fillna函数,是因为如果有出现索引对不齐的情况,则会匹配出NA值(比如Email这个索引值就不是都有,匹配后20180607这列的值就为0) 最后成型 有了上面的合并经验,我们可以把上面的那个合并结果作为一个整体,然后对每一个columns指标都做同样的事情,最后合并起来,其keys的值就是原columns的值,如下所示: df_session = pd.concat([channel_last_week['会话数'], channel['会话数']], keys=[yd_la, yd], axis=1).fillna(0) df_uv = pd.concat([channel_last_week['唯一身份浏览量'], channel['唯一身份浏览量']], keys=[yd_la, yd], axis=1).fillna(0) channel_together = pd.concat([df_user,df_session,df_uv],keys=['用户数', '会话数', '唯一身份浏览量'],axis=1).fillna(0)

最后来看我们的channel_together 长什么样

Out[119]: 用户数 会话数 唯一身份浏览量 20180531 20180607 20180531 20180607 20180531 20180607 (Other) 3756 3839 6351 7324 13825 15223 Direct 33195 30060 38812 35364 78479 72330 Display 2 2.0 2 2 2 2 Email 1 0.0 1 0 3 0 Organic Search 56003 50636.0 64026 57410 158187 144043 Referral 3185 2845 3769 3370 9252 8380 Social 3380 1310 3690 1564 7698 3480 shareasale.com 241 214 268 238 658 568

将其输出到Excel中就是目标中的那种格式啦!但是,你这个代码未免有点过长了,而且类似的代码比较多,现在,我们使用列表推导式,重新得到channel_together 发大招啦~~~

channel_together = pd.concat([ pd.concat([channel_last_week[column], channel[column]], keys=[yd_la, yd], axis=1) for column in ['用户数', '会话数', '唯一身份浏览量']], axis=1, keys=['用户数', '会话数', '唯一身份浏览量']).fillna(0)

看到没有,一句代码就解决! 未完待续~~~~



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3