Python大数据分析与应用 |
您所在的位置:网站首页 › 中国大学生平均薪资 › Python大数据分析与应用 |
一.数据来源 数据说明:数据来源于薪酬网,网址为https://www.xinchou.com/ChineseCollege/Indexes (注:薪酬指数:在做薪酬之前要做岗位评估,一般从10个维度去衡量岗位综合分数,一般以一千分为基准。毕业生薪酬指数既反映了毕业生成长发展状况,也反映了高校毕业生就业状况、收入变化,对客观分析高校毕业生就业趋势、企业人力资源配置状况具有重要的参考意义) 2020年中国高校毕业生薪酬指数排名(前100)。数据存入csv文件中,每行数据为高校,行末为换行符作为结束;行内数据为该高校毕业生薪酬有关的信息,行内数据用逗号分隔。共103行、10列数据,具体内容如下: 薪酬指数排名 学校名称 类型 所在地 是否985院校 是否211院校 薪酬指数 毕业生平均薪酬2020届(工作一年) 毕业生平均薪酬2018届(工作三年) 毕业生平均薪酬2015届(工作五年) 1 清华大学 理工 北京 是 是 86.9 9065 10818 12614 2 北京大学 综合 北京 是 是 86.7 9042 10698 13790 3 上海交通大学 综合 上海 是 是 86.5 9020 10673 12242 4 对外经济贸易大学 财经 北京 否 是 9010 11028 12861 5 北京外国语大学 语言 北京 否 是 86.3 8998 10922 12316 6 外交学院 语言 北京 未知 未知 86.3 8956 10688 7 浙江大学 综合 是 是 86 8842 10461 13594 8 中央财经大学 财经 北京 否 是 85.8 8810 10065 12369 9 上海外国语大学 语言 上海 否 是 85.8 8784 10394 13616 10 中国人民大学 综合 北京 是 是 85.5 8771 10467 11902 11 复旦大学 综合 上海 是 是 85.4 8746 10259 12587 12 同济大学 理工 是 是 8737 10338 12258 13 上海财经大学 财经 上海 否 是 85.2 8705 10122 11814 14 北京航空航天大学 理工 北京 是 是 84.9 8669 10168 12786 15 国际关系学院 政法 北京 未知 未知 84.9 8660 9893 12563 16 华南理工大学 理工 广东 是 是 84.8 8629 11813 17 中山大学 综合 广东 是 是 84.7 8620 9923 11899 18 东华大学 理工 上海 否 是 84.7 8534 10231 12607 19 中国科学技术大学 理工 安徽 是 是 84.7 8500 9760 12281 20 上海对外经贸大学 财经 上海 否 否 84.6 8454 10040 12755 21 上海理工大学 理工 上海 否 否 84.5 8462 9549 11710 22 华东政法大学 政法 上海 否 否 84.1 8448 9470 12693 23 北京电影学院 艺术 北京 否 否 84 8434 10301 11464 24 北京理工大学 理工 北京 是 是 83.4 8423 9622 12229 25 广东外语外贸大学 语言 广东 否 否 83.2 8416 10271 12125 26 华东师范大学 师范 上海 是 是 83.2 8399 9424 11910 27 南京大学 综合 江苏 是 是 83 8392 10255 12081 28 北京邮电大学 理工 北京 否 是 82.8 8364 10551 11884 29 西安交通大学 综合 陕西 是 是 82.7 8356 9930 11255 30 中央美术学院 艺术 北京 否 否 82.4 8355 10143 11243 31 北京交通大学 理工 北京 否 是 82.4 8353 10224 11727 32 东南大学 综合 江苏 是 是 82.3 8316 10094 12329 33 厦门大学 综合 福建 是 是 81.9 8283 9886 11865 34 北京化工大学 理工 北京 否 是 81.8 8253 9408 12226 35 北京大学医学部 综合 北京 未知 否 81.8 8235 9538 11674 36 深圳大学 综合 广东 否 否 81.6 8174 9424 11579 37 北京信息科技大学 理工 北京 未知 否 81.5 8131 9344 11152 38 北京工业大学 理工 北京 否 是 81.1 8105 9482 11610 39 上海大学 综合 上海 否 是 81 8078 9889 11477 40 哈尔滨工业大学 理工 黑龙江 是 是 80.9 8014 9772 10332 41 天津大学 理工 天津 是 是 80.8 7976 9496 11287 42 北京科技大学 理工 北京 否 是 80.8 7957 9265 11157 43 大连理工大学 理工 辽宁 是 是 80.7 7953 9723 11288 44 中央戏剧学院 艺术 北京 否 否 80.5 7944 9612 11174 45 南开大学 综合 天津 是 是 80.5 7919 9194 11932 46 北京工商大学 财经 北京 否 否 80.3 7876 8733 10967 47 华北电力大学(北京) 工科 北京 否 是 80 7854 9373 10837 48 哈尔滨工程大学 理工 黑龙江 否 是 80 7851 8969 11622 49 西安电子科技大学 理工 陕西 否 是 80 7780 8837 10658 50 暨南大学 综合 广东 否 是 79.9 7763 9547 11397 51 电子科技大学 理工 四川 是 是 79.9 7714 9411 11289 52 上海海事大学 理工 上海 否 否 79.9 7694 8868 11084 53 上海第二工业大学 理工 上海 否 否 79.6 7689 9522 11570 54 首都经济贸易大学 财经 北京 否 否 79.3 7673 8957 10176 55 北京师范大学 师范 北京 是 是 79.3 7636 9269 10615 56 大连海事大学 理工 辽宁 否 是 79.2 7573 9079 11325 57 汕头大学 综合 广东 未知 未知 79 7528 8677 11179 58 浙江工商大学 财经 浙江 否 否 78.8 7494 8928 10902 59 中南大学 综合 湖南 是 是 78.8 7466 9063 10837 60 北京第二外国语学院 语言 北京 未知 否 78.8 7418 9073 10613 61 重庆医科大学 医药 重庆 否 否 78.8 7415 8984 10218 62 北京服装学院 理工 北京 否 否 78.6 7401 8879 10675 63 北方工业大学 理工 北京 否 否 78.5 7365 8555 10320 64 上海电力学院 理工 上海 否 否 78.4 7356 9339 10926 65 中国地质大学(北京) 工科 北京 否 是 78.3 7348 8259 10342 66 上海师范大学 师范 上海 否 否 78.3 7331 8525 10128 67 中国青年政治学院 政法 北京 否 否 78.1 7254 8564 10758 68 上海工程技术大学 理工 上海 否 否 78.1 7230 9572 10727 69 南京邮电大学 理工 江苏 否 否 77.9 7229 8329 10708 70 上海中医药大学 医药 上海 否 否 77.9 7228 8470 10848 71 浙江财经大学 财经 浙江 否 否 77.9 7188 8700 10651 72 南京航空航天大学 理工 江苏 否 是 77.8 7164 8769 10494 73 广州美术学院 艺术 广东 未知 未知 77.7 7101 8485 10178 74 中国农业大学 农林 北京 是 是 77.7 7075 8393 9722 75 中国美术学院 艺术 杭州 未知 否 77.6 7033 8431 9888 76 中国民航大学 理工 天津 否 否 77.5 6879 8257 9685 77 上海戏剧学院 艺术 上海 否 否 77.3 6755 8444 10467 78 南京理工大学 理工 江苏 否 是 77.1 6718 8069 9738 79 河北建筑工程学院 理工 河北 否 否 77 6712 7675 9808 80 西北工业大学 理工 陕西 是 是 77 6679 7648 9020 81 湖南大学 综合 湖南 是 是 76.8 6678 8216 9663 82 重庆交通大学 综合 重庆 否 否 76.7 6606 7628 9537 83 武汉大学 综合 湖北 是 是 76.6 6589 7546 9696 84 上海应用技术大学 理工 上海 否 否 76.3 6569 7997 9272 85 中国政法大学 政法 北京 否 是 76.1 6562 7368 9174 86 北京建筑大学 理工 北京 否 否 76 6508 7970 9448 87 广西大学 综合 广西 否 是 75.9 6508 7965 9134 88 江西财经大学 财经 江西 否 否 75.9 6502 7705 8833 89 青岛大学 综合 山东 否 否 75.8 6429 7627 9059 90 北京语言大学 语言 北京 否 否 75.8 6417 7451 9998 91 上海海洋大学 农林 上海 否 否 75.7 6408 7738 8801 92 南京艺术学院 艺术 南京 否 否 75.7 6380 7288 9159 93 北京林业大学 农林 北京 否 是 75.4 6264 7462 8998 94 北京印刷学院 理工 北京 否 否 75.4 6262 7412 9338 95 西南财经大学 财经 四川 否 是 75.1 6243 7132 9788 96 北京物资学院 财经 北京 否 否 75 6240 7899 8645 97 山西大学 综合 山西 否 否 75 6200 7297 9212 98 扬州大学 综合 江苏 否 否 74.8 6156 7168 8832 99 天津工业大学 理工 天津 否 否 74.7 6164 7090 8850 100 江苏大学 综合 江苏 否 否 74.4 6100 7002 8515 数据处理 1.读入数据 import pandas as pd df=pd.read_csv('C:/Users/86182/2020年中国高校毕业生薪酬指数排名.csv',encoding='GBK') #读取csv文件 2.数据规格化、清洗 删除两个空行 df=df.drop([8,28])将“是否985院校”,“是否211院校”的两列中的“是”用数值1代替,“否”用数值0代替,“未知”用数值-1代替,并将列表信息存储为newdata.txt df['是否985院校']=df['是否985院校'].replace('是',1) df['是否985院校']=df['是否985院校'].replace('否',0) df['是否985院校']=df['是否985院校'].replace('未知',-1) df['是否211院校']=df['是否211院校'].replace('是',1) df['是否211院校']=df['是否211院校'].replace('否',0) df['是否211院校']=df['是否211院校'].replace('未知',-1) df.to_csv('newdata.txt',sep=',',index=False) (3)data1=df.describe() 将“毕业生平均薪酬2020届(工作一年)”“毕业生平均薪酬2018届(工作三年)”“毕业生平均薪酬2015届(工作五年)”这三列的列名分别改为“salary2020”“salary2018”“salary2015” df=df.rename(columns={'毕业生平均薪酬2020届(工作一年)':'salary2020','毕业生平均薪酬2018届(工作三年)':'salary2018','毕业生平均薪酬2015届(工作五年)':'salary2015'}) 3.统计分析数据 将薪酬指数排名前十的大学信息显示出 df3=df.head(10) 按照2018届(工作三年)的平均薪酬重新排序(降序),并保存到变量df4里,保存为csv文件(df4.csv) df4=df.sort_values(by='salary2018',ascending=False) df4.to_csv('df4.csv') 计算各大学毕业生的三届学生的平均薪资,并将平均薪酬添加到df中,列名为‘average’ df5=df.iloc[0:101,[7,8,9]] df6=df5.mean(axis=1).round(2).values df['average']=df6
筛选出来三届毕业生的平均工资大于10000的学校 df1=df.loc[df['salary2018']>10000] 筛选出来2015届毕业生(工作五年)平均工资大于12000的学校 df2=df.loc[df['salary2015']>12000] 按照省份对所有列进行分类汇总 df3=df.groupby('所在地').count() df7=df.groupby('类型').count()
计算薪酬指数与三届毕业生平均薪资的相关性 salary1=df['薪酬指数'] average=df['average'] salary1.corr(average) 按照是否为985院校和是否为211院校对学校进行分类 df8=df.groupby(['是否985院校','是否211院校'])['学校名称'].count() 注:数值0代表‘否’,数值1代表‘是’,数值-1代表‘未知’ 按照学校类型对平均薪资进行汇总 df10=df.groupby('所在地')['average'].count()三、图表显示 1.根据学校类型的数量画出一个直方图 import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False types=[] for tp in df[u'类型']: ls=tp.split(',') for x in ls: types.append(x) tp_df=pd.DataFrame({u'类型':types}) fig,ax=plt.subplots(figsize=(9,6),dpi=60) tp_df[u'类型'].value_counts().plot(kind='bar',ax=ax) ax.set_xlabel(u'高校') ax.set_ylabel(u'数量') ax.set_title(u'各类型高校数量') 根据省市的学校数量画出一个直方图 types=[] for tp in df[u'所在地']: ls=tp.split(',') for x in ls: types.append(x) tp_df=pd.DataFrame({u'所在地':types}) fig,ax=plt.subplots(figsize=(9,6),dpi=100) tp_df[u'所在地'].value_counts().plot(kind='bar',ax=ax) ax.set_xlabel(u'所在地') ax.set_ylabel(u'数量') ax.set_title(u'平均薪酬top100各省市高校数量') 画出各省市2020届毕业生和2018届毕业生的平均薪酬的折线图 import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']='SimHei'#设置中文显示 fig,ax=plt.subplots(figsize=(10,7),dpi=100) x=df[u'所在地'].value_counts().sort_index().index y2=df.sort_values(by=u'所在地').groupby(u'所在地').mean()[u'salary2020'].values y1=df.sort_values(by=u'所在地').groupby(u'所在地').mean()[u'salary2018'].values plt.plot(x,y2,'go--') plt.plot(x,y1,'bo--') plt.title("各省市高校毕业生平均薪酬") plt.xlabel('省市') plt.ylabel('平均薪酬') plt.legend('best') plt.annotate("change5", xy=('天津',7250),xytext=('天津',8500),arrowprops=dict(facecolor='black',headwidth=4,width=1.5,headlength=4),horizontalalignment='right',verticalalignment='top') plt.annotate("change13", xy=('江西',7750),xytext=('江西',8900),arrowprops=dict(facecolor='black',headwidth=4,width=1.5,headlength=4),horizontalalignment='right',verticalalignment='top') 结论 薪资最高的是上海,北京,广东这些一线城市,看来就业城市很重要,想拿高工资还是得去一线。各高校薪酬指数排名前一百的高校中,理工,综合,财经这三类学校的平均薪资都较高。2018届各高校毕业生和2020届各高校毕业生在各省市的平均薪资基本变化不大。工资最高的是清北,2020届毕业也就是工作一年的大学生,平均薪资9000左右,工作三年后工资达到一万一,工作五年后则能达到一万三左右。排前五十的大部分是985和211高校,但也有少部分是双非,但是这些双非学校基本都在北上广。许多人说学外语没前途,其实不然,北京外国语,对外经贸,外交学院这些大学薪资很高。清华毕业一年薪资最高,但五年后就不如北大,复旦甚至外交学院。不管是工作一年、三年还是五年,985学校的薪资都高于211学校,所以尽量上好学校。
|
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |