“互联网+”大学生创新创业大赛产业命题赛道命题方向分析

您所在的位置:网站首页 互联网创新创业大赛主题名称怎么取 “互联网+”大学生创新创业大赛产业命题赛道命题方向分析

“互联网+”大学生创新创业大赛产业命题赛道命题方向分析

2024-07-15 20:41| 来源: 网络整理| 查看: 265

图1 大赛产业命题赛道部分命题

         如图1所示,产业命题赛道就好比命题作文,选题都是一些真实企业(如华为)提前定好的,参赛选手必须在命题要求的范围内按照要求进行准备。

        这些命题直观上令人感觉到十分前沿,大部分都要求应用新技术,如区块链等,颇具难度。

        作者对命题方向的分布十分感兴趣,于是爬取了所有命题题目,并对其进行分词,然后计算词频,并进行可视化呈现,直观准确地获得了命题方向的大概分布情况。

1 整体思路

 

 图2 整体思路流程图

 2 项目实施 2.1 爬取题目 import requests from lxml import etree import pandas as pd import jieba import matplotlib.pyplot as plt word_list = [] # 用来储存分好的词 stopword_list = [] # 停用词列表,用来排除分好的词中虚词等无意义的词 for i in range(8): url = 'https://cy.ncss.cn/mtcontest/mingtilist?pageIndex='+str(i)+'&pageSize=30&companyName=&name=' headers={ 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36', 'Host':'cy.ncss.cn' } text = requests.get(url = url, headers = headers).text html = etree.HTML(text) title = html.xpath('//div[@class="cyyq-title"]//text()')

        需要注意的是,目标网页通过ajax加载数据,需要通过chrome浏览器分析出发送ajax请求后的新url进行请求,不然无法获得目标数据。

2.2 分词操作 for item in title: # 接上面的代码段 for word in jieba.lcut(item,cut_all = False, HMM=True): word_list.append(word) with open('stopword.txt', encoding='utf-8') as f: for line in f.readlines(): stopword_list.append(line.strip('\n')) word_list = [w for w in word_list if w not in stopword_list]

        利用jieba库进行中文分词,分词后导入停用词表删除无效的虚词、标点符号等无意义词。

2.3 词频统计 df = p


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3