爬虫练习

您所在的位置:网站首页 书籍的基本信息是什么 爬虫练习

爬虫练习

2024-07-12 20:03| 来源: 网络整理| 查看: 265

前言

爬取豆瓣网图书TOP250的数据,书名、链接、作者、出版社、出版时间、价格、评分、评语,并将数据存储于CSV文件中

本文为整理代码,梳理思路,验证代码有效性——2019.12.15

环境: Python3(Anaconda3) PyCharm Chrome浏览器

主要模块: lxml requests csv

1.

爬取的豆瓣图书首页如下 在这里插入图片描述

2.

分析URL规律

https://book.douban.com/top250? # 首页 https://book.douban.com/top250? start=25 # 第二页 https://book.douban.com/top250? start=50 # 第三页 https://book.douban.com/top250? start=75 # 第四页 ...

可以发现首页的URL与其他的URL格式不一样,但是通过测试发现可以通过URLhttps://book.douban.com/top250?start=0来访问首页 我们用列表解析式来构造出相应的URL列表

urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)] 3.

爬取书名、链接、作者、出版社、出版时间、价格、评分、评语等数据 在这里插入图片描述 分析源码,进行解析 在这里插入图片描述 利用Xpath对其解析

# 所有信


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3