爬虫用Cookie登录网页 |
您所在的位置:网站首页 › 怎么用cookie登录网页 › 爬虫用Cookie登录网页 |
最近在爬取豆瓣的数据时发现了一些问题。因为要做一个爬虫,爬取用户读过的书以及对书的评分。但是在进行网页的分析时却出现了点问题。 当浏览器打开用户读书记录的链接时是没有任何问题的,但是用requests库来进行网页爬取时却出现了问题。 以https://book.douban.com/people/…/collect这个链接为例,获取这个链接的html源码,一般都是这样写: import requests url = 'https://book.douban.com/people/.../collect' r = requests.get(url) print(r.text)运行结果却是: 403 Forbidden 403 Forbidden nginx网页却能正常访问: 打开cookie.txt文件会发现cookie已被保存。 运行结果: 读过的书(219) !function(e){var o=function(o,n,t){var c,i,r=new Date;n=n||30,t=t||"/",r.setTime(r.getTime()+24*n*60*60*1e3),c="; expires="+r.toGMTString();for(i in o)e.cookie=i+"="+o[i]+c+"; path="+t},n=function(o){var n,t,c,i=o+"=",r=e.cookie.split(";");for(t=0,c=r.length;t |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |