数据分析之历史上的百年奥运

您所在的位置:网站首页 举办奥运会的国家为什么金牌多 数据分析之历史上的百年奥运

数据分析之历史上的百年奥运

2024-07-12 06:57| 来源: 网络整理| 查看: 265

2020东京奥运会已经结束了,才想起来写一篇关于奥运会的数据分析文章,真是前些天都太热衷于追奥运了。

找了一下,网上果然有从1896第一届现代奥运会开始至2016年里约奥运会的全部数据,当然如果你感兴趣,还可以把2020年的给加上,于是,我们就可以用这些数据来重新回顾一下这100多年来的奥运会历史了!

01 提出问题

奥运会,全称:奥林匹克运动会,发源于2000多年前的古希腊,因举办地在奥林匹亚而得名,每4年一届,是世界上影响力最大的体育盛会。

1896年,停办了1500年的奥运会终于得以重办,这也是首届现代奥运会,如今已举办了32界夏季奥运会,23界冬季奥运会。

我们可以带着以下3个问题来分析这份数据,了解历史。

地域上,哪些国家/地区举办奥运会次数最多?参赛的运动员最多?获奖最多? 个人上,历年来男女参赛的运动员表现如何? 项目上,有没有哪些项目是某些国家/地区的强项? 02 数据探查

数据来源: https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154

共两份数据,一份athlete_events.csv,包含了参赛运动员基本生物数据和奖牌结果。

一份noc_regions.csv,是国家奥委会3个字母的代码与对应国家信息。

分析工具:Power BI + Excel

1.1 字段介绍

运动员数据包含了从1896年至2016年,历届奥运会每位运动员参赛的数据,共271116行15个字段,每行对应每位运动员参加奥运会项目的信息。

ID:每个运动员的唯一编号,共135571个编号 Name:运动员姓名 Sex:运动员性别,F是女性,M是男性 Age:运动员年龄 Height:运动员身高,单位cm Weight:运动员体重,单位kg Team:运动员代表队,如中国 NOC:国家奥委会三字代码 Games:运动员参加的哪一届奥运会 Year:年份 Season:季节 City:主办城市,如北京 Sport:运动项目,如篮球 Event:具体项目,如男子篮球 Medal:奖牌,如金牌、银牌、铜牌或没有

奥委会数据:

NOC:国家奥委会3个字母的代码 Region:国家/地区 Notes:备注

这里需要理解的是:

ID号比实际数据量少是因为会有1个运动员参加几个项目的情况,一个运动员对应一个ID编号,而非一条数据对应一个ID。 NOC是指国家奥委会三字代码,比如中国的代码是CHN GAMES是用年份+季节命名的哪一届奥运会,比如2016 Summer是2016年夏季奥运会。奥运会其实包含夏季奥运会、冬季奥运会、残奥会等,夏奥会受关注较多,这份数据是包含夏奥会和冬奥会的。 TEAM是该运动员所在的代表队,也就是运动员所属的国家/地区。插播一条冷知识,奥运会是以奥委会为代表团参加的,而不是以国家为代表,所以也一直在强调“国家或地区”这个概念,也是为什么台湾会参与,并且是以中华台北的名义,因为中华台北奥委会是国际奥委会的成员,所以它可以参与,历史上它还以“中华民国”的名义参与,被我们抵制了。

将两份数据以NOC为共同字段进行关联,就可以得到每个运动员所属的国家/地区了。

将数据导入Power BI,它会自动设置好关联。

1.2 数据处理 1.2.1 缺失值

这份数据在Age、Height、Weight、Medal列存在缺失值:

Medal的缺失值表示该运动员在此项目上没有拿到奖牌,不用处理 Age列有9474个缺失值,占比3.5% Height列有60171个缺失值,占比22% Weight列有62875个缺失值,占比23%

年龄、身高、体重属于个人信息ÿ



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3