JavaScript获取本机浏览器UA助力Python爬取糗事百科首页

您所在的位置：网站首页 › 糗事百科视频是什么时候出现的 › JavaScript获取本机浏览器UA助力Python爬取糗事百科首页

JavaScript获取本机浏览器UA助力Python爬取糗事百科首页

2023-06-11 09:13| 来源: 网络整理| 查看: 265

问题背景：

使用Python编写爬虫时，经常会遇到反爬机制，例如网站要求必须使用浏览器访问。就像下面的403错误：

JavaScript获取本机浏览器UA助力Python爬取糗事百科首页_html

或者下面这种错误信息：

JavaScript获取本机浏览器UA助力Python爬取糗事百科首页_html5_02

一般来说，这是遇到反爬机制了，对方要求使用浏览器访问。这时可以在爬虫程序中修改代码，设置UserAgent，假装自己是浏览器。很多人会到网上搜可用的UserAgent，但是搜到的UA也可能无法使用，只好多搜几个试试。也有时候，即使成功假装自己是浏览器，也可能被封，因为爬虫的访问速度要比人类使用浏览器正常访问快很多，这对服务器来说是不正常的。

可以想办法获取本地浏览器的真实UA，然后写到爬虫代码里，因为是真实的UA，所以基本上不会被反爬机制限制。如果本地安装了多个浏览器的话，可以全部整理出来，然后每次爬取网页时从多个UA中随机选择一个，这样的话安全系数就提高了很多，不容易被拦截了。

获取浏览器UserAgent：

如果使用Chrome浏览器（这也是在编写爬虫程序之前分析目标网页常用的浏览器）的话，可以在地址栏中输入about:version，然后在页面中即可看到UA，复制下来就可以了。

JavaScript获取本机浏览器UA助力Python爬取糗事百科首页_javascript_03