python3爬虫系列20之反爬需要登录的网站三种处理方式 |
您所在的位置:网站首页 › 登录的网站 › python3爬虫系列20之反爬需要登录的网站三种处理方式 |
python3爬虫系列20之反爬需要登录的网站三种处理方式
1.前言
在上一篇文章中,讲了python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用,实际上这是属于反爬中的一个了,在数据采集的过程中,基本上经常遇到这些情况,所以,如果要写持久型采集方案,多要采用这些方式。 在以往的案例中,我们都是爬那些不需要登录或者登陆要求不高的网站。 那么当你在爬某些网站的时候,需要你登录才可以获取数据,怎么办? 登录的常见方法无非是这两种 1、让你输入 帐号和密码登录 2、让你输入 帐号密码+验证码登录今天先说第一种问题的处理办法~ 第一招Cookie法:requests直接携带cookies信息简单来说 你平常在网站的时,你只要登录一次,就可以一直看到你想要的内容,过了一阵子才需要再次登录。或者下次打开仍然在登录状态中的? 因为就是每一个使用这个网站的人,服务器都会给他一个 Cookie,那么下次你再请求数据的时候,你顺带把这个 Cookie 传过去,服务器一看有登录过直接返回数据给他。 【Cookie 的时长周期是服务器那边决定的,有的时候过去了就需要重新登录。】 拿去某个网站的个人Cookie 信息? 首先使用你的账号密码,登录该爬虫目标网站,然后 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |