动态爬取链家二手房成交记录并保存至Excel

您所在的位置:网站首页 怎样查二手房的成交记录 动态爬取链家二手房成交记录并保存至Excel

动态爬取链家二手房成交记录并保存至Excel

2024-07-03 00:33| 来源: 网络整理| 查看: 265

  一、先观察网页结构

链家成交记录网址:https://bj.lianjia.com/chengjiao/

每页有30条成交记录,点击记录提示要下载APP才能查看详细信息。不管它,我们直接审查元素,找到成交记录的链接,点击打开。如下图

                                     https://bj.lianjia.com/chengjiao/101103150758.html

链接后面有一串数字,应该是这个成交记录的id号,由于记录每日更新,我们每次爬取完成之后用一个txt文本保存最新记录的id号,以便下次准确定位爬取结束的位置。

接下来回到成交记录页面,观察其翻页时网址的变化:

https://bj.lianjia.com/chengjiao/pg2/

https://bj.lianjia.com/chengjiao/pg3/

地址后加上:/pg+页数 就可以翻页了。

然后在详细信息页面观察要爬取的内容,如图:

包括基本属性、交易属性、成交额、成交单价和成交日期,全部爬取。

接下来老规矩,审查元素,找到这些内容所在的标签:

标签位置已经清楚,说一下爬取的基本思路:

先获取30个记录的链接,然后依次爬取信息,最后打开下一页,循环往复。

这是为了在第一次爬取的时候(有100页),一旦出现异常,可以将已爬取的先保存。

二、代码解析

需要的包有numpy,pandas,BeautifulSoup,re,urllib等

代码解析如下:

1、getbsobj函数 def getbsobj(url): try: html = urlopen(url,timeout=3) except (HTTPError,socket.timeout):


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3