python爬虫解决频繁访问

2023-10-22 19:43| 来源: 网络整理| 查看: 265

背景：

大多数情况下，我们遇到的是访问频率限制。如果你访问太快了，网站就会认为你不是一个人。这种情况下需要设定好频率的阈值，否则有可能误伤。如果大家考过托福，或者在12306上面买过火车票，你应该会有这样的体会，有时候即便你是真的用手在操作页面，但是因为你鼠标点得太快了，它都会提示你: “操作频率太快...”。

遇到这种网页，最直接的办法是限制访问时间。例如每隔5秒钟访问一次页面。但是如果遇到聪明一点的网站，它检测到你的访问时间，这个人访问了几十个页面，但是每次访问都刚好5秒钟，人怎么可能做到这么准确的时间间隔？肯定是爬虫，被封也是理所当然的！所以访问时间间隔你可以设定为一个随机值，例如0到10之间的随机秒数。

当然，如果遇到限制访问频率的网站，我们使用Selenium来访问就显得比较有优势了，因为Selenium这个东西打开一个页面本身就需要一定的时间，所以我们因祸得福，它的效率低下反而让我们绕过了频率检查的反爬虫机制。而且Selenium还可以帮我们渲染网页的JavaScript，省去了人工分析JavaScript源代码的麻烦，可谓一举两得。

下面是我经常使用的修改访问频率的几种场景，供大家参考：

1、Request 单机版爬虫：

上面的代码可以放在request请求之后

2、scrapy 单机版爬虫或者scrapy_redis分布式爬虫

在这里设置请求间隔时间，其他参数的

【本文地址】

python爬虫解决频繁访问

python爬虫解决频繁访问

今日新闻

推荐新闻