2023年第二届全国大学生数据统计与分析竞赛题目B:电影评分的大数据分析

您所在的位置:网站首页 大数据时代下的产物 2023年第二届全国大学生数据统计与分析竞赛题目B:电影评分的大数据分析

2023年第二届全国大学生数据统计与分析竞赛题目B:电影评分的大数据分析

2023-06-11 01:56| 来源: 网络整理| 查看: 265

竞赛信息

在大数据时代背景下,统计学作为大数据分析领域的基础显得尤为重要。为了帮助学生更好的学习和应用数据统计与分析的知识,促进统计、计算机、数学等相关专业的发展,培养具有数据分析与应用型人才,经研究决定,中国国际经济技术合作促进会教育发展工作委员会决定主办“第二届全国大学生数据统计与分析竞赛”(以下简称“竞赛”),为我国数据统计与分析行业提供人才支持,夯实人才队伍基础。欢迎各高等院校按照竞赛章程及有关规定组织同学报名参赛。

问题一:请分析附件 1 中最受欢迎的电影类型是什么?排名前 250 名电影中 出现次数最多的导演前 10 名是谁?出现次数最多的国家前 5 名是哪

读取附件1数据

import pandas as pd import matplotlib.pyplot as plt import numpy as np plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示 plt.rcParams['axes.unicode_minus'] = False encodings = [*****] for encoding in encodings: ******* break except UnicodeDecodeError as e: print(f"{encoding} 编码解析失败") #详细代码+企鹅2869955900 data.info()

输出

 最受欢迎的电影类型是什么

# 提取电影类型列 movie_genres = data['电影类型'] # 初始化一个字典用于存储每种类型的出现次数 genre_count = {} # 遍历每部电影的类型 for genres in movie_genres: **** # 遍历拆分后的类型列表,统计每种类型的出现次数 for genre in genre_list: if genre not in genre_count: ***** else: ***** # 输出统计结果 print(genre_count)

 输出

import seaborn as sns a = ********** # 创建一个图形和轴对象 ****** # 使用Seaborn绘制条形图 ********* # 设置标题和坐标轴标签 ax.set_title('电影类型数量分布', fontsize=16) ax.set_xlabel('电影类型', fontsize=14) ax.set_ylabel('数量', fontsize=14) # 旋转x轴刻度标签,以便更好地显示 plt.xticks(rotation=45) plt.savefig('电影类型数量分布.png',bbox_inches = 'tight') # 显示图形 plt.show()

 输出

排名前 250 名电影中出现次数最多的导演前 10 名是谁?

data['导演']********** # 导演数据 directors = *** # 提取数据 names = list(directors.keys()) values = list(directors.values()) # 设置图表样式 plt.style.use('ggplot') # 创建柱状图 ***** # 设置标题和坐标轴标签 ax.set_title('Top 10 Directors') ax.set_xlabel('Director Names') ax.set_ylabel('Number of Movies') # 自动调整x轴标签角度以避免重叠 plt.xticks(rotation=45) plt.savefig('排名前 250 名电影中出现次数最多的导演前 10 名是谁.png',bbox_inches = 'tight') # 显示图表 plt.show()

 

出现次数最多的国家前 5 名是哪些国家

data['国家']************ # 数据准备 countries = ['美国', '日本', '中国香港'*****] counts = ***** # 创建柱状图 plt.figure(figsize=(10, 6)) ax = sns.barplot(x=countries, y=counts) # 添加数据标签 for i in range(len(countries)): ********* # 设置标题和坐标轴标签 plt.title('Top250电影出现次数最多的国家前5名', fontsize=20) plt.xlabel('国家', fontsize=15) plt.ylabel('出现次数', fontsize=15) plt.savefig('出现次数最多的国家前 5 名是哪些国家.png',bbox_inches = 'tight') # 显示图表 plt.show() 详细代码+企鹅2869955900

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3