如何解决python爬虫requests.get()遇到的418问题

您所在的位置：网站首页 › 爬虫返回418 › 如何解决python爬虫requests.get()遇到的418问题

如何解决python爬虫requests.get()遇到的418问题

2024-07-13 22:41| 来源: 网络整理| 查看: 265

如何解决python爬虫——遇到requests.get()访问得到418问题

在爬虫时候，通过requests.get()得到不正确的状态码： 4**：表示出错

403问题：服务器已经理解请求，但是拒绝执行它 418问题：网站的反爬程序返回的其他HTTP状态码查找可以参考： https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin#4_19

当我们在爬虫时候遇到418问题：解决方法：补充上headers: 目的是模拟浏览器，欺骗服务器，获取和浏览器一致的内容代码修改为：

12345678import requests url ='https://book.douban.com/tag/小说' headers={'Referer': 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4',User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} response=requests.get(url, headers=headers,timeout=3) response

结果显示如下：其中，headers怎么获取呢，打开你要爬取的网页，F12键——Network——Headers(Request Headers)下的内容copy过来就可以了

注意：出现 ‘set’ object has no attribute ‘items’ 的问题解决方法： ‘Referer’: ‘https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4’ 冒号左右两边都要加单引号

参考网页：

1. requests的基本用法： https://www.jianshu.com/p/ec9451d960db

2. HTTP状态码查找： https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin#4_19

【本文地址】

如何解决python爬虫requests.get()遇到的418问题

如何解决python爬虫requests.get()遇到的418问题

今日新闻

推荐新闻