Python爬虫之headers和data的获取 |
您所在的位置:网站首页 › 爬虫干嘛的 › Python爬虫之headers和data的获取 |
Python爬虫之headers和data的获取
在用爬虫爬取网页数据时,有些网站需要登录后才能爬取内容,还有很多网站会识别是否是由浏览器发出的请求,如果不是会拒绝请求,这个时候就需要模拟浏览器发出请求 #一、headers的获取 就以ipipnet为例:https://www.ipip.net/ 打开网页,按下F12键,如下图所示: 点击下方标签中的Network,如下: 接下来刷新网页,找到下图红框中name为www.ipip.net的标签并点击,在右边的显示内容选择headers标签,就可以查看到所需要的headers信息。 下图中红框中就是我们要的headers信息 一般只需要添加User-Agent这一信息就足够了,headers同样也是字典类型; user_agent = Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' headers = { 'User-Agent' : user_agent } 二、data获取以电驴登录界面为例:http://secure.verycd.com/signin 按下F12键,如下图所示: 点击Network,然后随意输入用户名和密码,点击登录可以看到如下图所示: data信息在From Data标签中: data={ username: “18888888888”, password: “8888888888”, continue: “http://www.verycd.com”, fk: “”, save_cookie: 1, login_submit: “登录” }每一个登录网站的data信息不一定一样,都需要进入网页确定。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |