爬虫 |
您所在的位置:网站首页 › boss直聘网页打不开怎么办 › 爬虫 |
文章目录
絮叨一下
分析
开撸
1.新建爬虫
2.分析页面布局
3.步骤
1.设置middlewares以及settings(核心)
2.boss_spider.py
3.item.py
4.运行
5. 效果
写给看到最后的你
絮叨一下
boos直聘,想必对于找工作的同志都非常熟悉,以其'招人快 人才多 匹配准 公开透明'等优点位居行业的前沿,,,当然我不是来打广告的,我是来安排他的. 今天就用scrapy框架配合selenium进行岗位,薪资.待遇,公司 等信息进行爬取 对于反爬,自己的需求不是很高自然这种方法应该是最简单的 分析
他的反爬还是很讨厌的,信息都是用cookies渲染生成的,cookies时效很短,很快就失效了,快速访问还会封掉你的ip ,封了ip第一反映就使用代理吧,使用代理你就会发现,会提示ip异常,然后进验证,,完了 看来需要接入接码平台了,,啊啊啊 , 好麻烦 ,当然了首页是没有反爬的,那就慢一点,虽然这一点都不像爬虫的正确姿势 但对于一些反爬机制,有不懂js的时候,这似乎也是一种选择 开撸
打开终端或者是cmd 输入命令 新建项目 scrapy startproject boss进入boss目录 cd boss新建爬虫 scrapy genspider boss_spider 'zhipin.com'使用pycharm打开 2.分析页面布局查看url : 第一页: https://www.zhipin.com/c101120100/?query=python&page=1&ka=page-1 其中&ka=page-1可以省略 第二页:https://www.zhipin.com/c101120100/?query=python&page=2 一共10页 查看数据 我们知道了地址知道了数据的存放位置 就可以开始了 1.设置middlewares以及settings(核心)因为我们要使用selenium,需要截获他的response对象,然后在进行转换 我们新建一个类 如果你不清楚selenium的使用也没有关系,可以查看这篇文章 selenium详细介绍 如果你还不明白scrapy的中间件可以参考这篇文章,要不在往下看你将会很迷糊 scrapy详细 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |