python爬各平台评论并数据分析

您所在的位置：网站首页 › python爬取贴吧数据 › python爬各平台评论并数据分析

python爬各平台评论并数据分析

2024-07-12 01:43| 来源: 网络整理| 查看: 265

progress含义：第{video_count}个视频已完成爬取。第{video_count + 1}个视频中，第{first_comment_index}个一级评论的，二级评论第{sub_page}页已完成爬取。 "write_parent"为1指当前一级评论已写入，为0指当前一级评论尚未写入。示例如右：{"video_count": 1, "first_comment_index": 15, "sub_page": 114, "write_parent": 1} 注意：“video_count”“first_comment_index”"sub_page"三个值全部是从0开始的,"write_parent"取值为0或1。

3.使用步骤

将要爬取评论的视频 URL 列表放入名为 video_list.txt 的文件中，每行一个 URL。

参数设定

若要修改最大滚动次数（默认45次，预计最多爬取到920条一级评论），请在代码中修改参数MAX_SCROLL_COUNT的值。注意，滚动次数过多，加载的数据过大，网页可能会因内存占用过大而崩溃。若要设定最大二级评论页码数（默认为150页），请在代码中修改参数max_sub_pages的值（若想无限制，请设为max_sub_pages = None）。建议设定一个上限以减少内存占用，避免页面崩溃。

运行代码：python Bilicomment.py（或pycharm等软件打开运行）。代码使用selenium爬取数据。

根据看到"请登录，登录成功跳转后，按回车键继续…"提示后，请登录 Bilibili。登录成功并跳转后，回到代码，按回车键继续。

等待爬取完成。每个视频的评论数据将保存到以视频 ID 命名的 CSV 文件中， CSV 文件位于代码文件同级目录下。

输出的 CSV 文件将包括以下列：‘一级评论计数’, ‘隶属关系’（一级评论/二级评论）, ‘被评论者昵称’（如果是一级评论，则为“up主”）, ‘被评论者ID’（如果是一级评论，则为“up主”）, ‘昵称’, ‘用户ID’, ‘评论内容’, ‘发布时间’, ‘点赞数’。

输出的 CSV 文件是utf-8编码，若乱码，请检查编码格式（可以先用记事本打开查看）。

如果有视频因为错误被跳过，将会被记录在代码同级文件夹下的video_errorlist.txt中。

【本文地址】

python爬各平台评论并数据分析

python爬各平台评论并数据分析

今日新闻

推荐新闻