python爬各平台评论并数据分析

您所在的位置:网站首页 python爬取贴吧数据 python爬各平台评论并数据分析

python爬各平台评论并数据分析

2024-07-12 01:43| 来源: 网络整理| 查看: 265

progress含义: 第{video_count}个视频已完成爬取。 第{video_count + 1}个视频中,第{first_comment_index}个一级评论的,二级评论第{sub_page}页已完成爬取。 "write_parent"为1指当前一级评论已写入,为0指当前一级评论尚未写入。 示例如右:{"video_count": 1, "first_comment_index": 15, "sub_page": 114, "write_parent": 1} 注意:“video_count”“first_comment_index”"sub_page"三个值全部是从0开始的,"write_parent"取值为0或1。

3.使用步骤

将要爬取评论的视频 URL 列表放入名为 video_list.txt 的文件中,每行一个 URL。

参数设定

若要修改最大滚动次数(默认45次,预计最多爬取到920条一级评论),请在代码中修改参数MAX_SCROLL_COUNT的值。注意,滚动次数过多,加载的数据过大,网页可能会因内存占用过大而崩溃。若要设定最大二级评论页码数(默认为150页),请在代码中修改参数max_sub_pages的值(若想无限制,请设为max_sub_pages = None)。建议设定一个上限以减少内存占用,避免页面崩溃。

运行代码:python Bilicomment.py(或pycharm等软件打开运行)。代码使用selenium爬取数据。

根据看到"请登录,登录成功跳转后,按回车键继续…"提示后,请登录 Bilibili。登录成功并跳转后,回到代码,按回车键继续。

等待爬取完成。每个视频的评论数据将保存到以视频 ID 命名的 CSV 文件中, CSV 文件位于代码文件同级目录下。

输出的 CSV 文件将包括以下列:‘一级评论计数’, ‘隶属关系’(一级评论/二级评论), ‘被评论者昵称’(如果是一级评论,则为“up主”), ‘被评论者ID’(如果是一级评论,则为“up主”), ‘昵称’, ‘用户ID’, ‘评论内容’, ‘发布时间’, ‘点赞数’。

输出的 CSV 文件是utf-8编码,若乱码,请检查编码格式(可以先用记事本打开查看)。

如果有视频因为错误被跳过,将会被记录在代码同级文件夹下的video_errorlist.txt中。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3