python3爬虫系列20之反爬需要登录的网站三种处理方式

2023-08-12 22:31| 来源: 网络整理| 查看: 265

python3爬虫系列20之反爬需要登录的网站三种处理方式 1.前言

在上一篇文章中，讲了python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用，实际上这是属于反爬中的一个了，在数据采集的过程中，基本上经常遇到这些情况，所以，如果要写持久型采集方案，多要采用这些方式。

在以往的案例中，我们都是爬那些不需要登录或者登陆要求不高的网站。

那么当你在爬某些网站的时候，需要你登录才可以获取数据，怎么办？

登录的常见方法无非是这两种

1、让你输入帐号和密码登录 2、让你输入帐号密码+验证码登录

今天先说第一种问题的处理办法~

第一招Cookie法：requests直接携带cookies信息

简单来说你平常在网站的时，你只要登录一次，就可以一直看到你想要的内容，过了一阵子才需要再次登录。或者下次打开仍然在登录状态中的？

因为就是每一个使用这个网站的人，服务器都会给他一个 Cookie，那么下次你再请求数据的时候，你顺带把这个 Cookie 传过去，服务器一看有登录过直接返回数据给他。

【Cookie 的时长周期是服务器那边决定的，有的时候过去了就需要重新登录。】

拿去某个网站的个人Cookie 信息？

首先使用你的账号密码，登录该爬虫目标网站，然后

【本文地址】

今日新闻