Python数据分析系列之

您所在的位置:网站首页 微博转发任务的钱是怎么算的 Python数据分析系列之

Python数据分析系列之

2024-03-16 12:46| 来源: 网络整理| 查看: 265

首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发用户数据分析一下。

本人本着客观的态度分析,如果不正确的地方欢迎批评指正。

文章目录 1 数据说明2 粉丝结构初步分析2.1 是否存在水军转发现象?2.2 实际参与的粉丝统计 3 粉丝画像最后的话

1 数据说明 数据源:王一博12月9日发的微博,截图时间为12月12日晚。即短短三天时间王一博发的一条广告转发量就达到了91.7万。本文爬取该微博的转发用户及其转发文案进行分析。 数据获取方法:浏览器抓包+python利用scrapy框架爬虫,获取过去24小时左右的转发数据。 说明:浏览器抓包得到的json数据是以时间倒序排列的,如“刚刚”、“1分钟前”、“5分钟前”……这样的数据排列方式导致抓取时间较早的数据比较困难。比如理论上91万条用户转发数据应该有9万多个page(一个page一般有9到10个数据),但是当我们page参数填入80000的时候会以极大几率返回空白信息。经本人多次验证,page小于19999的时候大几率能够获得有效信息,而19999page的时间大致为24小时,即12月11日晚上到12月12日晚上之间产生的数据。数据获取时间:12月12日晚上开始爬取。样本数量:30632(在过去24小时内产生的数据中随机抽取30632个作为样本,随机的方式为爬虫的时候是将page打乱进行爬取的)数据结构初步浏览: 在进行数据清洗后,保留以下有用字段用于后续进行数据分析:

关于每个字段的含义,这里不详述(以后本人再写一篇关于微博字段的文章说明吧)

2 粉丝结构初步分析

首先提出两个问题:

91.7万的巨大转发量是否存在雇佣水军转发的嫌疑?是否有粉丝多次重复转发以及重复转发占比量多少? 2.1 是否存在水军转发现象?

判断是否有水军,只能通过假设检验的方式(反证法),即先提出一个假设,再寻找特征来反驳这个假设,若无法拒绝假设,只能说明这个命题无法证明。。 在这里,我们可以假设没有水军,没有水军的情况下数据表现出来的特征是:

男女比例符合常理(女生粉丝比男生多)转发源差异不会特别大转发文案中没有重复率较高且不太正常的文案(如一些与王一博毫无关联的诗句等等)

因此若数据有以下特征之一,可以判断为有水军参与转发的嫌疑:

男女比例不协调转发设备比例差异较大转发文案有奇怪的特点

我们先来看一下3万转发量中的性别比例分布(如下图),女生数量为21657,男生数量为8975。女生偏多,符合我们一般的认知。 王一博粉丝男女比例图

再看看3万转发量的转发源统计(如下图)。iPhone客户端使用率是最高的,令人惊讶的是微博国际版(微博国际版使用率已经这么高了吗???),而且竟然很多是通过微博小程序转发的。。。噢大家都不下载APP了嘛??? 转发源统计 我们再粗略看一下转发文案的粗略统计(如下图),图中文案后面的数字代表出现的该文案再3万条转发数据中出现的次数。可见“转发微博”出现次数最多4108次,因为这是微博默认转发文案,(是否可以说明刷流量或做数据的成分较大。。。)。从这个粗略统计中还可以看出有某些号的再转发量较大,比如有很多转发都是源于@王一博数据组、@一笑给伯伯搓澡、@王一博专属bot等等号,进一步显示3万多转发量中粉丝做数据的成分较大。且在转发文案统计中没有看到奇奇怪怪的文案。 在这里插入图片描述

目前来看,数据呈现的特点都没有太离谱,所以直观上不能判断粉丝是否掺假,我们不妨给假粉丝一个更加明确的定义。

假粉丝定义:(关注数


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3