淘宝商品爬虫Ⅰ:根据店铺名爬取淘宝商品基本信息

您所在的位置:网站首页 淘宝店铺的宝贝链接在哪里 淘宝商品爬虫Ⅰ:根据店铺名爬取淘宝商品基本信息

淘宝商品爬虫Ⅰ:根据店铺名爬取淘宝商品基本信息

2024-07-14 21:41| 来源: 网络整理| 查看: 265

根据店铺名爬取淘宝商品基本信息 算是前言网页分析爬取流程代码和运行结果Cookies去哪找?火狐浏览器解决方案 后记

算是前言

之前接了几个私活,很多买方都是想要淘宝某个店铺的商品的数据。 去网上看了看,近期能用的比较少,这才写了一个用来爬取某个店铺的爬虫。

网页分析

我们先来讨论一下思路,如何获得一个店铺的所有的商品数据呢? 首先我们可以打开一家店铺的所有商品。注意点开的是所有分类。 在这里插入图片描述 我们可以想一下,这既然可以链接到一个个商品,这里也就是可以获取所有商品的商品id了,id可以想成身份证一样的数字代号。

话不多说,F12,开始抓包。

找到类似这个链接的包

这里提示一下,每一页的大小大概为40kb左右,类型是html。 在这里插入图片描述 查看响应的数据。 这里是每个商品的基本数据。

在这里插入图片描述 你说你没看见id?别急,这个是格式化显示的数据,我们看一下原始数据。 该数据数据是jsonp119()内包含了一个html格式的数据,我们把内部数据放到可以格式化的网站就可以很轻松看出来了。(找不到网站的,百度 html格式化 ) 在这里插入图片描述往下看,有每个商品的名、价格、销量和评价。 在这里插入图片描述这样我们就可以获得每个店家所有商品第一页的商品了。 点开第二页并点击F12检查发现,第二页的URL为:

在这里插入图片描述与第一页的相比: 在这里插入图片描述

可以看到,这里一共有两个重要的参数,一个是店铺名,一个是页码。 其他的参数就不需要修改了。

但是我们要如何确定一共有多少页呢? 我们可以试试看访问这个店家的第三页,我们可以看到除了店家推荐的十个商品就没有商品信息了,我们可以直接判断每页获取的id个数是否等于10,如果等于十就停止爬取。

爬取流程

那这样我们的方向就明确了: 在这里插入图片描述这样我们就可以获取每个商品的id号和其他基本数据了。

代码和运行结果

代码其实很简单,主要是分析的过程。

# -*- coding: utf-8 -*- # @Time : 2021/5/12 17:07 # @Author : Leviathan_Sei # @File : get_item_id.py # @Python : 3.7 import requests import time import csv import re def get_id_html(store, page): base_url = "https://{}.tmall.com/i/asynSearch.htm?_ksTS=1618216498569_351&callback=jsonp352&mid=w-23295354947-0&wid=23295354947&path=/category.htm&spm=a1z10.1-b-s.w5001-23295377977.6.2059782don1Eg5&search=y&orderType=hotsell_desc&scene=taobao_shop&pageNo={}" url = base_url.format(store, page) cookies = { "Cookies":"Your cookies" } headers = { "Host": str(store) + ".tmall.com", "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:60.0)Gecko/20100101 Firefox/60.0'", } response = requests.get(url, cookies=cookies, headers=headers).text time.sleep(10) return response store = "shuangfeiyan" for page in range(1, 100): print("开始爬取第"+str(page)+"页") html = get_id_html(store, page) print("爬取完成") # 这一步的目的是清楚多余的空格 html = re.sub('\s', '', str(html)) item_data = {} # 这里使用正则表达式 # 商品名 data1 = re.findall('', html) # 价格 data3 = re.findall('c-price\\\\">(.*?)


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3