爬虫基础(案例:北京新发地信息爬取)

您所在的位置:网站首页 新发地在哪里 爬虫基础(案例:北京新发地信息爬取)

爬虫基础(案例:北京新发地信息爬取)

2023-09-22 12:41| 来源: 网络整理| 查看: 265

爬取思路: 1、找到蔬菜信息页面,然后进行翻页,发现页面的url没有发生改变,所有蔬菜信息是通过接口数据动态获取的,是动态数据。 2、进行chrom调试抓包,找到每个页面信息所在的url 3、 发现每个信息的url都相同,post请求,form data不同。 4、通过修改提交的data来获取不同页面的蔬菜信息。

import requests import json import csv file = open("C://Users//孤桥//Desktop//项目//PekingXFD//vegetable.csv","a",newline='') file_csv = csv.writer(file) file_csv.writerow(["ClassFication","Name","low-price","mean-price","high-price","release-time"]) class spyderXFD(): def __init__(self): self.url ="http://www.xinfadi.com.cn/getPriceData.html" self.headers = { "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } self.data = { "limit": 20, "current":"", "pubDateStartTime":"", "pubDateEndTime": "", "prodPcatid": "", "prodCatid": "", "prodName": "" } def post_url(self): res = requests.post(self.url,data =self.data,headers = self.headers) res_dic = json.loads(res.text) for i in res_dic["list"]: file_csv.writerow([i["prodCat"],i["prodName"],i["lowPrice"],i["avgPrice"],i["highPrice"],i["pubDate"]]) def run(self,x): self.data["current"] = x#获取第x页数据 self.post_url() train_XFD = spyderXFD() for i in range(10): if(i==0): train_XFD.run("") else: train_XFD.run(i) file_csv.writerow("") file.close()


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3