Python爬虫实战(五)：某博终篇之粉丝和关注者账号的爬取

您所在的位置：网站首页 › 为什么有的微博粉丝无法移除关注 › Python爬虫实战(五)：某博终篇之粉丝和关注者账号的爬取

Python爬虫实战(五)：某博终篇之粉丝和关注者账号的爬取

2024-07-03 06:04| 来源: 网络整理| 查看: 265

追风赶月莫停留，平芜尽处是春山。

文章目录追风赶月莫停留，平芜尽处是春山。一、网页分析二、接口分析url分析返回数据分析三、编写代码获取数据保存数据完整代码终于终于终于期末考试结束了，暑假集训也结束了，终于有时间来更新我的博客了！！今天咱们来聊一聊关于微博粉丝和关注者账号的抓取。依旧是使用新版微博，依旧是熟悉的女神迪丽热巴😍。

咱们先看粉丝

一、网页分析

在这里插入图片描述点击热巴的粉丝，然后F12开发者模式，然后刷新，依次点击Network -> XHR -> friends?relate=fans... -> Preview，你就会发现，热巴的粉丝的账户信息(uid，性别，个性签名，认证信息，所在地区等等) 我给你们摘出来了请求但这个只是一页的，想获取所有的那就继续往下看吧！

二、接口分析 url分析

https://www.weibo.com/ajax/friendships/friends？relate=fans&page=1&uid=1669879400&type=all&newFollowerCount=0

很明显，他有两个参数：

page 这个参数掌管着页数，想要获得多页的数据那就必须改变它。uid 这个参数掌管着你要获取粉丝和关注的博主的id，也就是用户id

如果你能掌管好这两个参数，那数据不就是手到擒来嘛！

返回数据分析

是get请求，返回数据格式是json格式，编码为utf-8 在这里插入图片描述突然发现这几次实战请求方式都是GET请求，这可不行，下下期吧，我出一期POST请求的，也让大家看看POST和GET有啥区别。回归正题~下一步就是编写代码了。

三、编写代码

知道了url规则，以及返回数据的格式，那现在咱们的任务就是构造url然后请求数据 uid不是问题，那怎么知道他有多少页呢这个简单：第一页在这里插入图片描述第二页发现没，previous_cursor的数量加了20，而咱们请求一页数据返回的用户的数量正好是20个，totao_number对应的是该博主总粉丝数量，知道这两点，那咱们不就好办了，最大页数不就得是total_number/20，不能整除就加一，最后也就是 ⌈ t o t a l _ n u m b e r 20 ⌉ \lceil \frac{total\_number}{20} \rceil ⌈20total_number⌉这个都懂吧。

uid = ['1669879400'] for id in uid: # 先获取总的粉丝数量 url = "https://www.weibo.com/ajax/friendships/friends?relate=fans&page={}&uid={}&type=all&newFollowerCount=0" html = get_html(url.format(1, id)) response = json.loads(html) total_number = response['total_number'] # 然后依次爬取每一页的数据 for page in range(1, math.ceil(total_number/20) + 1): html = get_html(url.format(page, id))

只要在uid这个列表里添加用户id，这样就可以实现多个用户粉丝数据的抓取了。对于每个url我们都要去用requests库中的get方法去请求数据：所以我们为了方便就把请求网页的代码写成了函数get_html(url)，传入的参数是url返回的是请求到的内容。

def get_html(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36", "Referer": "https://weibo.com" } cookies = { "cookie": "你的cookie" } response = requests.get(url, headers=headers, cookies=cookies) time.sleep(5) # 加上5s 的延时防止被反爬 return response.text

注意这里一定要把你的cookie替换掉，不然请求不到内容。 cookies获取方式

获取数据

将获得的数据格式化为json格式的数据，然后提前他的粉丝的信息

response = json.loads(html) fans_list = response['users'] data = {} # 创建一个字典存放数据 for fan in fans_list: data['uid'] = fan['id'] # 用户id data['screen_name'] = fan['screen_name'] # 用户昵称 data['description'] = fan['description'] # 个性签名 data['gender'] = fan['gender'] # 性别 data['followers_count'] = fan['followers_count'] # 粉丝的粉丝数量 data['friends_count'] = fan['friends_count'] # 粉丝的关注数量 data['statuses_count'] = fan['statuses_count'] # 粉丝的博文数量 # 还有很多信息可以得到，我这里就不再举例子了保存数据

封装了一个函数：

def save_fans_data(data): title = ['screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count', 'gender', 'verified', 'verified_reason', 'birthday', 'created_at', 'sunshine_credit', 'company', 'school'] with open("fans_data.csv", "a", encoding="utf-8", newline="")as fi: fi = csv.writer(fi) fi.writerow([data[k] for k in title])

再来看关注在这里插入图片描述你可以先去自己看一下，是不是和爬取粉丝数据的方式一样呀，自己尝试着编写一下代码吧~

完整代码 # -*- coding:utf-8 -*- # @time: 2021/7/24 21:52 # @Author: 韩国麦当劳 # @Environment: Python 3.7 import json import requests import csv import time import math def get_html(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36", "Referer": "https://weibo.com" } cookies = { "cookie": "你的cookie" } response = requests.get(url, headers=headers, cookies=cookies) time.sleep(5) # 加上5s 的延时防止被反爬 return response.text def save_fans_data(data): title = ['uid', 'id', 'screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count', 'gender'] with open("fans_data.csv", "a", encoding="utf-8", newline="")as fi: fi = csv.writer(fi) fi.writerow([data[k] for k in title]) def save_followers_data(data): title = ['uid', 'id', 'screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count', 'gender'] with open("followers_data.csv", "a", encoding="utf-8", newline="")as fi: fi = csv.writer(fi) fi.writerow([data[k] for k in title]) def get_fans_data(id): # 先获取总的粉丝数量 url = "https://www.weibo.com/ajax/friendships/friends?relate=fans&page={}&uid={}&type=all&newFollowerCount=0" html = get_html(url.format(1, id)) response = json.loads(html) total_number = response['total_number'] # 然后依次爬取每一页的数据 for page in range(1, math.ceil(total_number/20) + 1): html = get_html(url.format(page, id)) response = json.loads(html) fans_list = response['users'] data = {} # 创建一个字典存放数据 for fan in fans_list: data['uid'] = id data['id'] = fan['id'] # 用户id data['screen_name'] = fan['screen_name'] # 用户昵称 data['description'] = fan['description'] # 个性签名 data['gender'] = fan['gender'] # 性别 data['followers_count'] = fan['followers_count'] # 粉丝的粉丝数量 data['friends_count'] = fan['friends_count'] # 粉丝的关注数量 data['statuses_count'] = fan['statuses_count'] # 粉丝的博文数量 # 还有很多信息可以得到，我这里就不再举例子了 save_fans_data(data) def get_followers_data(id): # 先获取总的关注的数量 url = "https://www.weibo.com/ajax/friendships/friends?page={}&uid={}" html = get_html(url.format(1, id)) response = json.loads(html) total_number = response['total_number'] # 然后依次爬取每一页的数据 for page in range(1, math.ceil(total_number / 20) + 1): html = get_html(url.format(page, id)) response = json.loads(html) fans_list = response['users'] data = {} # 创建一个字典存放数据 for fan in fans_list: data['uid'] = id data['id'] = fan['id'] # 用户id data['screen_name'] = fan['screen_name'] # 用户昵称 data['description'] = fan['description'] # 个性签名 data['gender'] = fan['gender'] # 性别 data['followers_count'] = fan['followers_count'] # 关注的粉丝数量 data['friends_count'] = fan['friends_count'] # 关注的关注数量 data['statuses_count'] = fan['statuses_count'] # 关注的博文数量 # 还有很多信息可以得到，我这里就不再举例子了 save_followers_data(data) if __name__ == '__main__': uid = ['1669879400'] # 如果想获取多个人的粉丝关注信息，就在后面依次加上uid for id in uid: get_fans_data(id) get_followers_data(id)

获得的部分数据截图(以前是我不好，从今以后获得的数据只要是涉及到隐私的全部打码处理)。在这里插入图片描述下期预告：百度指数对于一个关键词的搜索指数和咨询指数的抓取，提前剧透一下：js加密数据哟~ 欢迎一键三连哦！还想看哪个网站的爬虫？欢迎留言，说不定下次要分析的就是你想要看的！

【本文地址】

Python爬虫实战(五)：某博终篇之粉丝和关注者账号的爬取

Python爬虫实战(五)：某博终篇之粉丝和关注者账号的爬取

今日新闻

推荐新闻