Python大数据分析与应用

您所在的位置:网站首页 中国大学生平均薪资 Python大数据分析与应用

Python大数据分析与应用

2024-07-17 06:22| 来源: 网络整理| 查看: 265

一.数据来源

数据说明:数据来源于薪酬网,网址为https://www.xinchou.com/ChineseCollege/Indexes

(注:薪酬指数:在做薪酬之前要做岗位评估,一般从10个维度去衡量岗位综合分数,一般以一千分为基准。毕业生薪酬指数既反映了毕业生成长发展状况,也反映了高校毕业生就业状况、收入变化,对客观分析高校毕业生就业趋势、企业人力资源配置状况具有重要的参考意义)

2020年中国高校毕业生薪酬指数排名(前100)。数据存入csv文件中,每行数据为高校,行末为换行符作为结束;行内数据为该高校毕业生薪酬有关的信息,行内数据用逗号分隔。共103行、10列数据,具体内容如下:

薪酬指数排名

学校名称

类型

所在地

是否985院校

是否211院校

薪酬指数

毕业生平均薪酬2020届(工作一年)

毕业生平均薪酬2018届(工作三年)

毕业生平均薪酬2015届(工作五年)

1

清华大学

理工

北京

86.9

9065

10818

12614

2

北京大学

综合

北京

86.7

9042

10698

13790

3

上海交通大学

综合

上海

86.5

9020

10673

12242

4

对外经济贸易大学

财经

北京

9010

11028

12861

5

北京外国语大学

语言

北京

86.3

8998

10922

12316

6

外交学院

语言

北京

未知

未知

86.3

8956

10688

7

浙江大学

综合

86

8842

10461

13594

8

中央财经大学

财经

北京

85.8

8810

10065

12369

9

上海外国语大学

语言

上海

85.8

8784

10394

13616

10

中国人民大学

综合

北京

85.5

8771

10467

11902

11

复旦大学

综合

上海

85.4

8746

10259

12587

12

同济大学

理工

8737

10338

12258

13

上海财经大学

财经

上海

85.2

8705

10122

11814

14

北京航空航天大学

理工

北京

84.9

8669

10168

12786

15

国际关系学院

政法

北京

未知

未知

84.9

8660

9893

12563

16

华南理工大学

理工

广东

84.8

8629

11813

17

中山大学

综合

广东

84.7

8620

9923

11899

18

东华大学

理工

上海

84.7

8534

10231

12607

19

中国科学技术大学

理工

安徽

84.7

8500

9760

12281

20

上海对外经贸大学

财经

上海

84.6

8454

10040

12755

21

上海理工大学

理工

上海

84.5

8462

9549

11710

22

华东政法大学

政法

上海

84.1

8448

9470

12693

23

北京电影学院

艺术

北京

84

8434

10301

11464

24

北京理工大学

理工

北京

83.4

8423

9622

12229

25

广东外语外贸大学

语言

广东

83.2

8416

10271

12125

26

华东师范大学

师范

上海

83.2

8399

9424

11910

27

南京大学

综合

江苏

83

8392

10255

12081

28

北京邮电大学

理工

北京

82.8

8364

10551

11884

29

西安交通大学

综合

陕西

82.7

8356

9930

11255

30

中央美术学院

艺术

北京

82.4

8355

10143

11243

31

北京交通大学

理工

北京

82.4

8353

10224

11727

32

东南大学

综合

江苏

82.3

8316

10094

12329

33

厦门大学

综合

福建

81.9

8283

9886

11865

34

北京化工大学

理工

北京

81.8

8253

9408

12226

35

北京大学医学部

综合

北京

未知

81.8

8235

9538

11674

36

深圳大学

综合

广东

81.6

8174

9424

11579

37

北京信息科技大学

理工

北京

未知

81.5

8131

9344

11152

38

北京工业大学

理工

北京

81.1

8105

9482

11610

39

上海大学

综合

上海

81

8078

9889

11477

40

哈尔滨工业大学

理工

黑龙江

80.9

8014

9772

10332

41

天津大学

理工

天津

80.8

7976

9496

11287

42

北京科技大学

理工

北京

80.8

7957

9265

11157

43

大连理工大学

理工

辽宁

80.7

7953

9723

11288

44

中央戏剧学院

艺术

北京

80.5

7944

9612

11174

45

南开大学

综合

天津

80.5

7919

9194

11932

46

北京工商大学

财经

北京

80.3

7876

8733

10967

47

华北电力大学(北京)

工科

北京

80

7854

9373

10837

48

哈尔滨工程大学

理工

黑龙江

80

7851

8969

11622

49

西安电子科技大学

理工

陕西

80

7780

8837

10658

50

暨南大学

综合

广东

79.9

7763

9547

11397

51

电子科技大学

理工

四川

79.9

7714

9411

11289

52

上海海事大学

理工

上海

79.9

7694

8868

11084

53

上海第二工业大学

理工

上海

79.6

7689

9522

11570

54

首都经济贸易大学

财经

北京

79.3

7673

8957

10176

55

北京师范大学

师范

北京

79.3

7636

9269

10615

56

大连海事大学

理工

辽宁

79.2

7573

9079

11325

57

汕头大学

综合

广东

未知

未知

79

7528

8677

11179

58

浙江工商大学

财经

浙江

78.8

7494

8928

10902

59

中南大学

综合

湖南

78.8

7466

9063

10837

60

北京第二外国语学院

语言

北京

未知

78.8

7418

9073

10613

61

重庆医科大学

医药

重庆

78.8

7415

8984

10218

62

北京服装学院

理工

北京

78.6

7401

8879

10675

63

北方工业大学

理工

北京

78.5

7365

8555

10320

64

上海电力学院

理工

上海

78.4

7356

9339

10926

65

中国地质大学(北京)

工科

北京

78.3

7348

8259

10342

66

上海师范大学

师范

上海

78.3

7331

8525

10128

67

中国青年政治学院

政法

北京

78.1

7254

8564

10758

68

上海工程技术大学

理工

上海

78.1

7230

9572

10727

69

南京邮电大学

理工

江苏

77.9

7229

8329

10708

70

上海中医药大学

医药

上海

77.9

7228

8470

10848

71

浙江财经大学

财经

浙江

77.9

7188

8700

10651

72

南京航空航天大学

理工

江苏

77.8

7164

8769

10494

73

广州美术学院

艺术

广东

未知

未知

77.7

7101

8485

10178

74

中国农业大学

农林

北京

77.7

7075

8393

9722

75

中国美术学院

艺术

杭州

未知

77.6

7033

8431

9888

76

中国民航大学

理工

天津

77.5

6879

8257

9685

77

上海戏剧学院

艺术

上海

77.3

6755

8444

10467

78

南京理工大学

理工

江苏

77.1

6718

8069

9738

79

河北建筑工程学院

理工

河北

77

6712

7675

9808

80

西北工业大学

理工

陕西

77

6679

7648

9020

81

湖南大学

综合

湖南

76.8

6678

8216

9663

82

重庆交通大学

综合

重庆

76.7

6606

7628

9537

83

武汉大学

综合

湖北

76.6

6589

7546

9696

84

上海应用技术大学

理工

上海

76.3

6569

7997

9272

85

中国政法大学

政法

北京

76.1

6562

7368

9174

86

北京建筑大学

理工

北京

76

6508

7970

9448

87

广西大学

综合

广西

75.9

6508

7965

9134

88

江西财经大学

财经

江西

75.9

6502

7705

8833

89

青岛大学

综合

山东

75.8

6429

7627

9059

90

北京语言大学

语言

北京

75.8

6417

7451

9998

91

上海海洋大学

农林

上海

75.7

6408

7738

8801

92

南京艺术学院

艺术

南京

75.7

6380

7288

9159

93

北京林业大学

农林

北京

75.4

6264

7462

8998

94

北京印刷学院

理工

北京

75.4

6262

7412

9338

95

西南财经大学

财经

四川

75.1

6243

7132

9788

96

北京物资学院

财经

北京

75

6240

7899

8645

97

山西大学

综合

山西

75

6200

7297

9212

98

扬州大学

综合

江苏

74.8

6156

7168

8832

99

天津工业大学

理工

天津

74.7

6164

7090

8850

100

江苏大学

综合

江苏

74.4

6100

7002

8515

数据处理 1.读入数据 import pandas as pd df=pd.read_csv('C:/Users/86182/2020年中国高校毕业生薪酬指数排名.csv',encoding='GBK') #读取csv文件

 2.数据规格化、清洗 删除两个空行 df=df.drop([8,28])

 

将“是否985院校”,“是否211院校”的两列中的“是”用数值1代替,“否”用数值0代替,“未知”用数值-1代替,并将列表信息存储为newdata.txt   df['是否985院校']=df['是否985院校'].replace('是',1) df['是否985院校']=df['是否985院校'].replace('否',0) df['是否985院校']=df['是否985院校'].replace('未知',-1) df['是否211院校']=df['是否211院校'].replace('是',1) df['是否211院校']=df['是否211院校'].replace('否',0) df['是否211院校']=df['是否211院校'].replace('未知',-1) df.to_csv('newdata.txt',sep=',',index=False)

(3)data1=df.describe()

 

将“毕业生平均薪酬2020届(工作一年)”“毕业生平均薪酬2018届(工作三年)”“毕业生平均薪酬2015届(工作五年)”这三列的列名分别改为“salary2020”“salary2018”“salary2015”

 

df=df.rename(columns={'毕业生平均薪酬2020届(工作一年)':'salary2020','毕业生平均薪酬2018届(工作三年)':'salary2018','毕业生平均薪酬2015届(工作五年)':'salary2015'})

 

3.统计分析数据  将薪酬指数排名前十的大学信息显示出 df3=df.head(10)

 

按照2018届(工作三年)的平均薪酬重新排序(降序),并保存到变量df4里,保存为csv文件(df4.csv) df4=df.sort_values(by='salary2018',ascending=False) df4.to_csv('df4.csv')

计算各大学毕业生的三届学生的平均薪资,并将平均薪酬添加到df中,列名为‘average’ df5=df.iloc[0:101,[7,8,9]] df6=df5.mean(axis=1).round(2).values df['average']=df6

 

 

筛选出来三届毕业生的平均工资大于10000的学校 df1=df.loc[df['salary2018']>10000]

 

筛选出来2015届毕业生(工作五年)平均工资大于12000的学校 df2=df.loc[df['salary2015']>12000]

 

按照省份对所有列进行分类汇总 df3=df.groupby('所在地').count()

 

df7=df.groupby('类型').count()

 

 

计算薪酬指数与三届毕业生平均薪资的相关性 salary1=df['薪酬指数'] average=df['average'] salary1.corr(average)

按照是否为985院校和是否为211院校对学校进行分类

 

df8=df.groupby(['是否985院校','是否211院校'])['学校名称'].count()

注:数值0代表‘否’,数值1代表‘是’,数值-1代表‘未知’

按照学校类型对平均薪资进行汇总 df10=df.groupby('所在地')['average'].count()

 

 三、图表显示  1.根据学校类型的数量画出一个直方图 import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False types=[] for tp in df[u'类型']: ls=tp.split(',') for x in ls: types.append(x) tp_df=pd.DataFrame({u'类型':types}) fig,ax=plt.subplots(figsize=(9,6),dpi=60) tp_df[u'类型'].value_counts().plot(kind='bar',ax=ax) ax.set_xlabel(u'高校') ax.set_ylabel(u'数量') ax.set_title(u'各类型高校数量') 根据省市的学校数量画出一个直方图

 

types=[] for tp in df[u'所在地']: ls=tp.split(',') for x in ls: types.append(x) tp_df=pd.DataFrame({u'所在地':types}) fig,ax=plt.subplots(figsize=(9,6),dpi=100) tp_df[u'所在地'].value_counts().plot(kind='bar',ax=ax) ax.set_xlabel(u'所在地') ax.set_ylabel(u'数量') ax.set_title(u'平均薪酬top100各省市高校数量')

画出各省市2020届毕业生和2018届毕业生的平均薪酬的折线图

 

import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']='SimHei'#设置中文显示 fig,ax=plt.subplots(figsize=(10,7),dpi=100) x=df[u'所在地'].value_counts().sort_index().index y2=df.sort_values(by=u'所在地').groupby(u'所在地').mean()[u'salary2020'].values y1=df.sort_values(by=u'所在地').groupby(u'所在地').mean()[u'salary2018'].values plt.plot(x,y2,'go--') plt.plot(x,y1,'bo--') plt.title("各省市高校毕业生平均薪酬") plt.xlabel('省市') plt.ylabel('平均薪酬') plt.legend('best') plt.annotate("change5", xy=('天津',7250),xytext=('天津',8500),arrowprops=dict(facecolor='black',headwidth=4,width=1.5,headlength=4),horizontalalignment='right',verticalalignment='top') plt.annotate("change13", xy=('江西',7750),xytext=('江西',8900),arrowprops=dict(facecolor='black',headwidth=4,width=1.5,headlength=4),horizontalalignment='right',verticalalignment='top')

结论 薪资最高的是上海,北京,广东这些一线城市,看来就业城市很重要,想拿高工资还是得去一线。各高校薪酬指数排名前一百的高校中,理工,综合,财经这三类学校的平均薪资都较高。2018届各高校毕业生和2020届各高校毕业生在各省市的平均薪资基本变化不大。工资最高的是清北,2020届毕业也就是工作一年的大学生,平均薪资9000左右,工作三年后工资达到一万一,工作五年后则能达到一万三左右。排前五十的大部分是985和211高校,但也有少部分是双非,但是这些双非学校基本都在北上广。许多人说学外语没前途,其实不然,北京外国语,对外经贸,外交学院这些大学薪资很高。清华毕业一年薪资最高,但五年后就不如北大,复旦甚至外交学院。不管是工作一年、三年还是五年,985学校的薪资都高于211学校,所以尽量上好学校。

 



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3