网易云音乐古风歌词统计分析

您所在的位置:网站首页 古风歌曲词库 网易云音乐古风歌词统计分析

网易云音乐古风歌词统计分析

2024-07-12 07:20| 来源: 网络整理| 查看: 265

因为没办法展示代码,所以在这里先贴上github项目地址,有兴趣的可以去看看。顺便求个star~   github项目地址:https://github.com/Encaik/TongJi  

一、调查目的

目前古风已经作为一个潮流名词出现在了大众眼中,而我作为爱好者中的一员,打算以此为方向,进行一次统计调查。以爬虫为工具,对古风歌曲的歌词进行数据分析,从而获取到一些古风歌曲风格等方面的信息。预期目的为得到歌词中的内容信息,以及歌词的相互关系等。

二、数据选取

本次调研的数据来源于网易云音乐,通过Python编写的爬虫自动化获取。而内容是我选取了目前在网络上出现次数较高,并且广为人熟知的30位古风歌手(包含音乐工作室)。歌曲范围是以网易云音乐的歌手个人主页为参考,选取每位歌手个人主页的热门单曲top50(如图2-1所示)的歌词作为本次调查的数据。通过合并以及清洗整理,获取到最后可用的用于数据分析的文件,并以此进行之后的分析工作。

图2-1 网易云歌手个人主页

以下为30位歌手、音乐工作室:

Aki阿杰、Assen捷、HITA、KBshinya、NL不分、smile _小千、Tacke竹桑、Winky诗、不才、橙翼、董贞、贰婶、河图、卡修Rui、流浪的蛙蛙、伦桑、满汉全席、慕寒、排骨教主、少司命、双笙、五色石南叶、小爱的妈、小曲儿、小旭音乐、玄觞、音频怪物、银临、云の泣、重小烟。

因为热门单曲top50有歌手主页不足50首以及部分歌曲为纯音乐的情况存在,所以数据以最终获取到的数据为准。接下来我就开始分析页面。

三、抓取数据

本次调查我采用了爬虫爬取数据,然后对获取到的数据进行分析。通过分析,我已经获取到了所需数据的位置,接下来通过爬虫爬取数据。整个抓取过程如下。

(1)获取歌手热门单曲top50歌单列表

图3-1 歌单列表标签

  如图3-1所示,通过浏览器开发者工具分析网页源代码找到歌单列表是一个名为tbody的标签下的a标签的内容文本。接下来我开始获取歌单列表。

(2)获取歌曲歌词在网络中的传递信息

图3-2 网络抓包分析

通过对网页数据的抓包分析,我找到歌词的json文件(如图3-2所示),并确定了请求页面的URL,随后我在网上搜索该API接口及其相关的参考资料。找到的资料如图3-3所示:

图3-3 网易云音乐歌词API接口

根据找到的资料我写了一个demo,用于测试使用该API是否可以接受到返回的歌词数据。结果如图3-4所示:

图3-4返回的歌词文件

经过比对确定返回的json格式的内容是歌曲歌词,然后我们需要的内容是lrc里的lyric中的文本内容。

图3-5 无歌词音乐返回的歌词文件

后来发现部分歌曲无歌词(如图3-5所示),然后通过和有歌词的歌词文件比对找到在文件中存在数据项nolyric是否存在的区别,因此通过过滤含有该数据项的返回值来清洗不存在歌词的歌曲,同时提高了代码的兼容性和可执行性。

(3)以文本形式保存歌词

 

图3-6 保存的歌词文件

在爬取到歌词数据并清洗以后,把歌词保存在txt文本中,并设置编码格式为utf-8,同时把保存下来的歌词按歌手分文件夹保存,为下一步合并文本做准备。

图3-7 初次合并后的歌词文件

为了方便后期的数据分析,因此把每一个歌手文件夹的歌词文件合并为同一个txt文件,然后再把这些文件放在同一个文件夹lyric里准备二次合并。

图3-8 二次合并后的文本文件

二次合并把所有歌词合并在同一个文件中,方便后期的统计及处理工作。

(4)总结

图3-9 最终文本文件字数统计

通过word的字数统计,得到此次收集到的数据最后的结果为,30位古风歌手及工作室的1401首歌曲的歌词,共计约66万字。

四、数据处理(1)词频统计

①使用jieba库对所有歌词进行分词处理

②进行字数过滤,将一个字以上的词存入字典,然后统计出现的次数

③将处理好的词频数据存入txt文本文件中

图4-1 词频文本文件

④将处理好的词频数据存入Excel表中

图4-2 词频表格文件

 

⑤将已有数据中一些脏数据清除,例如:作曲、作词、人名、英文词语等

图4-3 清洗后的词频表格文件

最终排序后的词频文件如图4-3所示。

(2)词云制作

①在网上搜索并找到合适的图片素材,如图4-4所示

图4-4 图片素材

②整理分词信息,并放在txt文本中导入使用,如图4-5所示

图4-5 词频信息文件

③通过Python库将词频文件导入,以素材图片为蒙版,生成词云图,如图4-6所示

图4-6 初次生成的词云图

④初次生成的词云颜色并不满足我的预期,于是对代码进行修改,再次生成词云图,如图4-7所示

图4-7 再次生成的词云图

再次生成的词云图符合我的预期,确定为最终效果。所以词云图这一步已经完成。

五、统计结果(1)根据所有歌词的词频制作的词云图

图5-1 词频词云

(2)根据专项名词统计后制作的图表

图5-2 城市出现次数表

图5-3 颜色出现次数表

图5-4 歌词关键词情感分析饼图

日期:2019年3月10日

作者:Encaik



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3