如何解决python爬虫requests.get()遇到的418问题

您所在的位置:网站首页 爬虫返回418 如何解决python爬虫requests.get()遇到的418问题

如何解决python爬虫requests.get()遇到的418问题

2024-07-13 22:41| 来源: 网络整理| 查看: 265

如何解决python爬虫——遇到requests.get()访问得到418问题

在爬虫时候,通过requests.get()得到不正确的状态码: 4**:表示出错

403问题:服务器已经理解请求,但是拒绝执行它 418问题:网站的反爬程序返回的 其他HTTP状态码查找可以参考: https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin#4_19

当我们在爬虫时候遇到418问题: 解决方法: 补充上headers: 目的是模拟浏览器,欺骗服务器,获取和浏览器一致的内容 代码修改为:

12345678import requests url ='https://book.douban.com/tag/小说' headers={'Referer': 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4',User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} response=requests.get(url, headers=headers,timeout=3) response

结果显示如下: 其中,headers怎么获取呢,打开你要爬取的网页,F12键——Network——Headers(Request Headers)下的内容copy过来就可以了

注意: 出现 ‘set’ object has no attribute ‘items’ 的问题 解决方法: ‘Referer’: ‘https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4’ 冒号左右两边都要加单引号

参考网页:

1. requests的基本用法: https://www.jianshu.com/p/ec9451d960db

2. HTTP状态码查找: https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin#4_19



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3