Python爬虫之headers和data的获取

您所在的位置：网站首页 › 爬虫干嘛的 › Python爬虫之headers和data的获取

Python爬虫之headers和data的获取

2024-07-13 14:21| 来源: 网络整理| 查看: 265

在用爬虫爬取网页数据时，有些网站需要登录后才能爬取内容，还有很多网站会识别是否是由浏览器发出的请求，如果不是会拒绝请求，这个时候就需要模拟浏览器发出请求

#一、headers的获取就以ipipnet为例：https://www.ipip.net/

打开网页，按下F12键，如下图所示：

点击下方标签中的Network，如下：

在这里插入图片描述

接下来刷新网页，找到下图红框中name为www.ipip.net的标签并点击，在右边的显示内容选择headers标签，就可以查看到所需要的headers信息。

在这里插入图片描述

下图中红框中就是我们要的headers信息在这里插入图片描述

一般只需要添加User-Agent这一信息就足够了，headers同样也是字典类型；

user_agent = Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' headers = { 'User-Agent' : user_agent } 二、data获取

以电驴登录界面为例：http://secure.verycd.com/signin

按下F12键，如下图所示：在这里插入图片描述

点击Network，然后随意输入用户名和密码，点击登录可以看到如下图所示：在这里插入图片描述

data信息在From Data标签中：

data={ username: “18888888888”， password: “8888888888”， continue: “http://www.verycd.com”， fk: “”， save_cookie: 1， login_submit: “登录” }

每一个登录网站的data信息不一定一样，都需要进入网页确定。

【本文地址】

Python爬虫之headers和data的获取

Python爬虫之headers和data的获取

今日新闻

推荐新闻