Python爬取拉勾网招聘信息

您所在的位置:网站首页 拉勾网址 Python爬取拉勾网招聘信息

Python爬取拉勾网招聘信息

2024-07-08 12:02| 来源: 网络整理| 查看: 265

最近自学研究爬虫,特找个地方记录一下代码。就来到了51cto先测试一下。第一次发帖不太会。先贴个代码。

首先打开拉勾网首页,然后在搜索框输入关键字Python。打开抓包工具。因为我的是MAC os,所以用的自带的Safari浏览器的开启时间线录制。通过抓取post方法,可以看到完整url=

http://www.lagou.com/jobs/positionAjax.json?

然后可以发现post的数据有三个,一个是first,kd,pn。其中first应该是判断是不是首页,Kd就是你输入的关键字,pn就是页码。除了第一页的first是true以外都是false。所以就可以用过if判断每次要post的数据。你从浏览器输入上面的网址他给你返回的应该是遗传json数据。所以需要json.loads()来处理这些数据。看了一下json,跟多维数组的使用比较类似。。。最后就是把我需要的数据趴下来写到文本文件中。

#coding=utf-8 import json import urllib2 import urllib import sys reload(sys) sys.setdefaultencoding('utf-8') page=1 length=0 index=1 f=open('lagoudata.txt','a+') while page


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3