案例一、航班准点预测(仅供学习参考)

您所在的位置:网站首页 航班准点到达 案例一、航班准点预测(仅供学习参考)

案例一、航班准点预测(仅供学习参考)

2024-07-04 18:48| 来源: 网络整理| 查看: 265

GitHub项目连接地址:https://github.com/Maxwellwk/DataAnalysisCase/tree/master/PrimaryCase

美国航班的准点预测 import numpy as np import pandas as pd from pandas import Series, DataFrame # 航班数据的链接网址 link = 'https://projects.fivethirtyeight.com/flights/' # 查看本地dada目录中的数据文件(项目中的实验数据都在data目录中) # win中 # !dir "../data/" # linux中 !ls "../data" 1970-2016世界恐怖袭击数据-utf8.csv AMZN.csv BABA.csv HR.csv Pokemon.csv apply_demo.csv city_weather.csv demo_duplicate.csv iris.csv movie_metadata.csv sales-funnel.xlsx top5.csv train.csv usa_flights.csv 亚洲国家20年人口数据-gb2312.csv 亚洲国家20年人口数据-utf8.csv 欧洲国家20年旅游收入数据-gb2312.csv 欧洲国家20年旅游收入数据-utf8.csv 国家各项税收.csv # 从本地读取航班数据 flights_df = pd.read_csv("../data/usa_flights.csv") # 查看前五行数据 flights_df.head() flight_dateunique_carrierflight_numorigindestarr_delaycancelleddistancecarrier_delayweather_delaylate_aircraft_delaynas_delaysecurity_delayactual_elapsed_time002/01/2015 0:00AA1JFKLAX-19.002475NaNNaNNaNNaNNaN381.0103/01/2015 0:00AA1JFKLAX-39.002475NaNNaNNaNNaNNaN358.0204/01/2015 0:00AA1JFKLAX-12.002475NaNNaNNaNNaNNaN385.0305/01/2015 0:00AA1JFKLAX-8.002475NaNNaNNaNNaNNaN389.0406/01/2015 0:00AA1JFKLAX25.0024750.00.0 1.查看飞机延误时间最长的前10名 flights_df.sort_values('arr_delay', ascending=False)[:10]  flight_dateunique_carrierflight_numorigindestarr_delaycancelleddistancecarrier_delayweather_delaylate_aircraft_delaynas_delaysecurity_delayactual_elapsed_time1107311/01/2015 0:00AA1595AUSDFW1444.001901444.00.00.00.00.059.01021413/01/2015 0:00AA1487OMADFW1392.005831392.00.00.00.00.0117.01243003/01/2015 0:00AA1677MEMDFW1384.004321380.00.00.04.00.0104.0844304/01/2015 0:00AA1279OMADFW1237.005831222.00.015.00.00.0102.01032805/01/2015 0:00AA1495EGEDFW1187.007211019.00.0168.00.00.0127.03657004/01/2015 0:00DL1435MIAMSP1174.0015011174.00.00.00.00.0231.03649504/01/2015 0:00DL1367ROCATL1138.007491112.00.00.026.00.0171.05907214/01/2015 0:00DL1687SANMSP1084.0015321070.00.00.014.00.0240.03217305/01/2015 0:00AA970LASLAX1042.002361033.00.09.00.00.066.05648812/01/2015 0:00DL2117ATLCOS1016.0011841016.00.00.00.00.0193.0

可得出初步结论,航空公司AA、DL的延误频次要比其他航空公司高,且AA航空公司比Dl航空公司高。如果有急事出行的话,可以尽量避开这两家航班公司。

2.计算延误和没有延误的飞机所占的比例 # 添加一列判断航班是否延误 flights_df['delayed'] = flights_df['arr_delay'].apply(lambda x: x > 0) # 查看前五行数据 flights_df.head()  flight_dateunique_carrierflight_numorigindestarr_delaycancelleddistancecarrier_delayweather_delaylate_aircraft_delaynas_delaysecurity_delayactual_elapsed_timedelayed002/01/2015 0:00AA1JFKLAX-19.002475NaNNaNNaNNaNNaN381.0False103/01/2015 0:00AA1JFKLAX-39.002475NaNNaNNaNNaNNaN358.0False204/01/2015 0:00AA1JFKLAX-12.002475NaNNaNNaNNaNNaN385.0False305/01/2015 0:00AA1JFKLAX-8.002475NaNNaNNaNNaNNaN389.0False406/01/2015 0:00AA1JFKLAX25.0024750.00.00.025.00.0424.0True # 查看延误飞机的数量(False:非延误 True:延误) delay_data = flights_df['delayed'].value_counts() delay_data False 103037 True 98627 Name: delayed, dtype: int64 # 计算延误航班所占的比例 delay_data[1]/(delay_data[0]+delay_data[1]) 0.4890659711202793 由此可得出在美国的所有航班中,有48%的航班都发生过延误。 # 计算每一个航空公司延误的情况 delay_group = flights_df.groupby(['unique_carrier', 'delayed']) df_delay = delay_group.size().unstack() df_delay Out[13]: delayedFalseTrueunique_carrier  AA89129841AS35272104B648324401DL177199803EV1059611371F911031848HA13511354MQ46928060NK15502133OO997710804UA78858624US78506353VX1254781WN2178921150

由上表可以得出,大部分航空公司的准点次数要大于延误次数

图形展示 import matplotlib.pyplot as plt # barh 柱状图 # stacked=True 横向展示 # figsize=[16, 6] 宽16,高6 # colormap='winter' 使用winter色 df_delay.plot(kind='barh', stacked=True, figsize=[16, 6], colormap='winter') plt.show()

由图形可以更直观的看出,飞行次数最多的公司是WN。虽然Dl公司的延时时间是相对比较长的,但他的延误次数却相比与其他公司要低。其次AS、VX两家小型航空公司的延误次数也比较低。

4.透视表

# index 索引 # columns 列名 # values 要显示的值 # aggfunc 聚合函数 flight_by_carrier = flights_df.pivot_table(index='flight_date', columns='unique_carrier', values='flight_num', aggfunc='count') flight_by_carrier unique_carrierAAASB6DLEVF9HAMQNKOOUAUSVXWNflight_date              02/01/2015 0:001545477759227118242542241046287176314201177176351803/01/2015 0:00145344971120311744192202937285168112331028160332804/01/2015 0:001534458759225818332492061027284173112831158169340305/01/2015 0:001532433754221218112642091039288173714321157174350606/01/2015 0:00140041569220541686249202966279152712941003152339607/01/2015 0:00142041969421071705228208998284155712591143151339808/01/2015 0:001447444731221417592242081009284162513311171164339809/01/2015 0:001448447730220417672292221010289163113311169167336410/01/2015 0:001285412641158411331682017682851270908912109266811/01/2015 0:00142643271120821585222206979286155811621061156288812/01/2015 0:001445426718228017542362091003281162813371086161332413/01/2015 0:0014044076662079167821020297227215141261996145337414/01/2015 0:001414412667214616882262069982791559125811421513374

由透视表我们可以看出,每天航班次数最多的公司是WN,其次是DL和EV。由此可猜测他们几家应该是大型航空公司。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3