python爬虫:关于解决request.get和点击查看网页源代码的内容不同的问题//及大神版js加密参数获取教程指路 |
您所在的位置:网站首页 › 浏览器代码查看器怎么用不了 › python爬虫:关于解决request.get和点击查看网页源代码的内容不同的问题//及大神版js加密参数获取教程指路 |
首先声明:爬虫小白,虽然爬过几个网站,但是知识几乎都是实践中获取,如果以下说的不对的,请多指正,谢谢!谨此给和我一样的小白提供一个解题思路! 目录 问题背景菜鸡版解决方案大神版js加密参数获取教程指路附:excel的下载方式 问题背景这两天在做一个爬虫项目,要求爬取页面的附件(excel)并保存,在用分析得到的request url中的k值在源代码中搜索时,幸运的定位到网页源码中隐藏了url信息,确定了爬虫方案。如下: 最后在不做完不睡觉和度娘都不帮我的绝望中,我决定研究研究,我爬到的这奇奇怪怪的k值到底和原代码里的有啥区别。(以下k值两个为一组,第二个为正确k值,第一个为我爬到的k值) 今天刷简书的时候意外地刷到了这篇文章,反反爬虫之js加密参数获取,文章详细地讲述了从发现加密问题到追根溯源分析js代码,最终找到加密文件的过程,看完深受启发,改天一定动手试一下! 附:excel的下载方式 excel_url=‘下载链接’ ht = requests.get(excel_url,headers=header) with open ('text.xls','wb') as f: f.write(ht.content) |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |