【Python】详解Pandas与Lambda结合进行高效数据分析

您所在的位置:网站首页 今日上海气温穿什么衣服 【Python】详解Pandas与Lambda结合进行高效数据分析

【Python】详解Pandas与Lambda结合进行高效数据分析

2023-09-16 14:58| 来源: 网络整理| 查看: 265

这篇文章来讲讲lambda方法以及它在pandas模块当中的运用,熟练掌握可以极大地提高数据分析与挖掘的效率。

导入模块与读取数据

我们第一步需要导入模块以及数据集

import pandas as pd df = pd.read_csv("IMDB-Movie-Data.csv") df.head() 创建新的列

一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列,例如

df['AvgRating'] = (df['Rating'] + df['Metascore']/10)/2

但是如果要新创建的列是经过相当复杂的计算得来的,那么lambda方法就很多必要被运用到了,我们先来定义一个函数方法

def custom_rating(genre,rating):     if 'Thriller' in genre:         return min(10,rating+1)     elif 'Comedy' in genre:         return max(0,rating-1)     elif 'Drama' in genre:         return max(5, rating-1)     else:         return rating

我们对于不同类别的电影采用了不同方式的评分方法,例如对于“惊悚片”,评分的方法则是在“原来的评分+1”和10分当中取一个最小的,而对于“喜剧”类别的电影,则是在0分和“原来的评分-1”当中取一个最大的,然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中

df["CustomRating"] = df.apply(lambda x: custom_rating(x['Genre'], x['Rating']), axis = 1)

我们这里需要说明一下axis参数的作用,其中axis=1代表跨列而axis=0代表跨行,如下图所示

52debd257d55998263cc7fd5992716b3.png

筛选数据

在pandas当中筛选数据相对来说比较容易,可以用到& | ~这些操作符,代码如下

# 单个条件,评分大于5分的 df_gt_5 = df[df['Rating']>5] # 多个条件: AND - 同时满足评分高于5分并且投票大于100000的 And_df = df[(df['Rating']>5) & (df['Votes']>100000)] # 多个条件: OR - 满足评分高于5分或者投票大于100000的 Or_df = df[(df['Rating']>5) | (df['Votes']>100000)] # 多个条件:NOT - 将满足评分高于5分或者投票大于100000的数据排除掉 Not_df = df[~((df['Rating']>5) | (df['Votes']>100000))]

这些都是非常简单并且是常见的例子,但是要是我们想要筛选出电影的影名长度大于5的部分,要是也采用上面的方式就会报错

df[len(df['Title'].split(" "))>=5]

output

AttributeError: 'Series' object has no attribute 'split'

这里我们还是采用apply和lambda相结合,来实现上面的功能

#创建一个新的列来存储每一影片名的长度 df['num_words_title'] = df.apply(lambda x : len(x['Title'].split(" ")),axis=1) #筛选出影片名长度大于5的部分 new_df = df[df['num_words_title']>=5]

当然要是大家觉得上面的方法有点繁琐的话,也可以一步到位

new_df = df[df.apply(lambda x : len(x['Title'].split(" "))>=5,axis=1)]

例如我们想要筛选出那些影片的票房低于当年平均水平的数据,可以这么来做。

我们先要对每年票房的的平均值做一个归总,代码如下

year_revenue_dict = df.groupby(['Year']).agg({'Revenue(Millions)':np.mean}).to_dict()['Revenue(Millions)']

然后我们定义一个函数来判断是否存在该影片的票房低于当年平均水平的情况,返回的是布尔值

def bool_provider(revenue, year):     return revenue 5) & (x["Rating"]  y) else y Bigger(2, 10)

output

10

当然很多时候我们可能有多组if-else,这样写起来就有点麻烦了,代码如下

df['Rating'].apply(lambda x:"低分电影" if x =3 and x =8 else "值得观看")))

看上去稍微有点凌乱了,这个时候,小编这里到还是推荐大家自定义函数,然后通过apply和lambda方法搭配使用

往期精彩回顾 适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑 AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群955171419,加入微信群请扫码:

cac5a884eeaa06b2e8113d71dde7f1e8.png



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3