起点畅销榜数据爬取

2024-06-29 02:51:40| 来源: 网络整理

qidian_analysis 目的

本次的数据分析项目实现了数据爬取、解析、储存、分析和可视化等需求。本项目整体使用了Python语言，爬取的目标是起点中文网，目的是获得其畅销榜单的前100部小说的相关信息（排行，书名，作者，书籍类型，简介，最新章节，最近更新时间和书籍链接），并在网页上进行相应的分析和可视化展示。

介绍

spider_qidian：将目标网站的数据进行爬取、清洗，然后保存在excel和数据库中

flask_qidian：web可视化展示

本次项目实现的大致功能：

网页爬取：采用Python中的urlib库连接并且爬取了起点中文网畅销榜单，获得了需要的内容。

数据解析：利用了BeautifulSoup和正则式对获取的网页内容进行了解析，拿到我们需要的信息（排行，书名，作者，书籍类型，简介，最新章节，最近更新时间和书籍链接）。

数据存储：将拿到的数据保存在了Excel文件中同时也利用sqlite3库将相关的数据保存在了数据库中，以便于之后数据的利用。

数据分析：利用flask框架构造了一个本地的网站，再次利用sqlite3操作数据库进行数据分析并且在网页上进行了展示。

数据可视化：通过echarts对书籍类型分布情况绘制了柱状图，然后又用wordcloud完成了对书籍简介词频分析和图像的制作，同时进行了展示。

环境

python3.9 + BeautifulSoup4 +flask + 各种库

搭建/运行数据爬取(指定起止页1~30) 可视化展示(运行app.py后访问终端显示的链接) 效果图首页(轮播图) 书籍(畅销榜) 柱状图(类型分布) 词云图书类型再分类分析可视化大屏

项目详情 https://github.com/yizhishiliu/qidian-analysis

【本文地址】转载请注明