如何使用cookie信息,完成自动登录

您所在的位置:网站首页 ehviewer用户名和密码 如何使用cookie信息,完成自动登录

如何使用cookie信息,完成自动登录

2023-08-16 22:50| 来源: 网络整理| 查看: 265

在做爬虫任务的时候,我们常常会遇到很多网页必须登录后,才可以开放某些页面。所以登录是爬取网页的第一步。但是,通过post表单(包含用户名和密码)的方法,对于那些不需要输入比较复杂的验证码的网页,可以使用正则表达式将验证码和验证码的ID匹配得出,然后实现自动化登录。但是,现在多部分的网页都是需要输入图片验证码的,所以必须得通过人工的识别图片然后输入验证码。当然,你也可以开发一个深度学习算法,将下载下来的验证码图片进行识别,然后转换为数字进行输入,但是这样就大大的提高了算法的成本,本来你只是要爬取一些简单的信息,却的开发一个实用的验证码识别算法,实属划不来。所以,我们可以通过使用cookie信息,完成自动化输入,而且每次访问网站的时候都不需要输入账号,密码和验证码等信息,相当于你在浏览器上勾选了记住我和自动登录的选项。下面就让我们开始学习如何使用cookie信息完成自动的登录,以爬取豆瓣网内容为例。

一.输入验证码登录

首先,我给出一个不使用cookie信息来登录的例子代码

import requestsimport html5libimport refrom bs4 import BeautifulSoups = requests.Session()url_login = 'http://accounts.douban.com/login' #该网址通过跟踪登录信息可以查看到#登录的表单formdata = {    'redir':'https://www.douban.com',#登录后直接跳转的页面    'form_email': '2324973098.com', #账户邮箱名(这是我自己乱写的邮箱号码,使用时请换成你自己的邮箱号)    'form_password': '12345678!',#登录密码(这是我自己乱写的密码,使用时请换成你自己的密码)    'login': u'登陆'}#登录的头信息,为了模拟浏览器登录,属于固定形式headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}r = s.post(url_login, data = formdata, headers = headers)content = r.textsoup = BeautifulSoup(content, 'html5lib')#使用HTML5进行解析网页captcha = soup.find('img', id = 'captcha_image')#获取验证码图的链接#判断是否需要验证码,需要则人工输入if captcha:    captcha_url = captcha['src']    re_captcha_id = r'



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3