python3爬虫系列20之反爬需要登录的网站三种处理方式

您所在的位置:网站首页 登录的网站 python3爬虫系列20之反爬需要登录的网站三种处理方式

python3爬虫系列20之反爬需要登录的网站三种处理方式

2023-08-12 22:31| 来源: 网络整理| 查看: 265

python3爬虫系列20之反爬需要登录的网站三种处理方式 1.前言

在上一篇文章中,讲了python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用,实际上这是属于反爬中的一个了,在数据采集的过程中,基本上经常遇到这些情况,所以,如果要写持久型采集方案,多要采用这些方式。

在以往的案例中,我们都是爬那些不需要登录或者登陆要求不高的网站。

那么当你在爬某些网站的时候,需要你登录才可以获取数据,怎么办?

登录的常见方法无非是这两种

1、让你输入 帐号和密码登录 2、让你输入 帐号密码+验证码登录

今天先说第一种问题的处理办法~

第一招Cookie法:requests直接携带cookies信息

简单来说 你平常在网站的时,你只要登录一次,就可以一直看到你想要的内容,过了一阵子才需要再次登录。或者下次打开仍然在登录状态中的?

因为就是每一个使用这个网站的人,服务器都会给他一个 Cookie,那么下次你再请求数据的时候,你顺带把这个 Cookie 传过去,服务器一看有登录过直接返回数据给他。

【Cookie 的时长周期是服务器那边决定的,有的时候过去了就需要重新登录。】

拿去某个网站的个人Cookie 信息?

首先使用你的账号密码,登录该爬虫目标网站,然后



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3