Python数据分析系列之 |
您所在的位置:网站首页 › 拉手品牌排名前十 › Python数据分析系列之 |
首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发用户数据分析一下。 本人本着客观的态度分析,如果不正确的地方欢迎批评指正。 文章目录 1 数据说明2 粉丝结构初步分析2.1 是否存在水军转发现象?2.2 实际参与的粉丝统计 3 粉丝画像最后的话 1 数据说明 数据源:王一博12月9日发的微博,截图时间为12月12日晚。即短短三天时间王一博发的一条广告转发量就达到了91.7万。本文爬取该微博的转发用户及其转发文案进行分析。![]() ![]() ![]() 关于每个字段的含义,这里不详述(以后本人再写一篇关于微博字段的文章说明吧) 2 粉丝结构初步分析首先提出两个问题: 91.7万的巨大转发量是否存在雇佣水军转发的嫌疑?是否有粉丝多次重复转发以及重复转发占比量多少? 2.1 是否存在水军转发现象?判断是否有水军,只能通过假设检验的方式(反证法),即先提出一个假设,再寻找特征来反驳这个假设,若无法拒绝假设,只能说明这个命题无法证明。。 在这里,我们可以假设没有水军,没有水军的情况下数据表现出来的特征是: 男女比例符合常理(女生粉丝比男生多)转发源差异不会特别大转发文案中没有重复率较高且不太正常的文案(如一些与王一博毫无关联的诗句等等)因此若数据有以下特征之一,可以判断为有水军参与转发的嫌疑: 男女比例不协调转发设备比例差异较大转发文案有奇怪的特点我们先来看一下3万转发量中的性别比例分布(如下图),女生数量为21657,男生数量为8975。女生偏多,符合我们一般的认知。 再看看3万转发量的转发源统计(如下图)。iPhone客户端使用率是最高的,令人惊讶的是微博国际版(微博国际版使用率已经这么高了吗???),而且竟然很多是通过微博小程序转发的。。。噢大家都不下载APP了嘛??? 目前来看,数据呈现的特点都没有太离谱,所以直观上不能判断粉丝是否掺假,我们不妨给假粉丝一个更加明确的定义。 假粉丝定义:(关注数 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |