如何使用cookie信息，完成自动登录

您所在的位置：网站首页 › ehviewer用户名和密码 › 如何使用cookie信息，完成自动登录

如何使用cookie信息，完成自动登录

2023-08-16 22:50| 来源: 网络整理| 查看: 265

在做爬虫任务的时候，我们常常会遇到很多网页必须登录后，才可以开放某些页面。所以登录是爬取网页的第一步。但是，通过post表单（包含用户名和密码）的方法，对于那些不需要输入比较复杂的验证码的网页，可以使用正则表达式将验证码和验证码的ID匹配得出，然后实现自动化登录。但是，现在多部分的网页都是需要输入图片验证码的，所以必须得通过人工的识别图片然后输入验证码。当然，你也可以开发一个深度学习算法，将下载下来的验证码图片进行识别，然后转换为数字进行输入，但是这样就大大的提高了算法的成本，本来你只是要爬取一些简单的信息，却的开发一个实用的验证码识别算法，实属划不来。所以，我们可以通过使用cookie信息，完成自动化输入，而且每次访问网站的时候都不需要输入账号，密码和验证码等信息，相当于你在浏览器上勾选了记住我和自动登录的选项。下面就让我们开始学习如何使用cookie信息完成自动的登录，以爬取豆瓣网内容为例。

一.输入验证码登录

首先，我给出一个不使用cookie信息来登录的例子代码

import requestsimport html5libimport refrom bs4 import BeautifulSoups = requests.Session()url_login = 'http://accounts.douban.com/login' #该网址通过跟踪登录信息可以查看到#登录的表单formdata = { 'redir':'https://www.douban.com',#登录后直接跳转的页面 'form_email': '2324973098.com', #账户邮箱名(这是我自己乱写的邮箱号码，使用时请换成你自己的邮箱号) 'form_password': '12345678!',#登录密码(这是我自己乱写的密码，使用时请换成你自己的密码) 'login': u'登陆'}#登录的头信息，为了模拟浏览器登录，属于固定形式headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}r = s.post(url_login, data = formdata, headers = headers)content = r.textsoup = BeautifulSoup(content, 'html5lib')#使用HTML5进行解析网页captcha = soup.find('img', id = 'captcha_image')#获取验证码图的链接#判断是否需要验证码，需要则人工输入if captcha: captcha_url = captcha['src'] re_captcha_id = r'

【本文地址】

如何使用cookie信息，完成自动登录

如何使用cookie信息，完成自动登录

今日新闻

推荐新闻