爬虫练习

您所在的位置：网站首页 › 书籍的基本信息是什么 › 爬虫练习

爬虫练习

2024-07-12 20:03| 来源: 网络整理| 查看: 265

前言

爬取豆瓣网图书TOP250的数据，书名、链接、作者、出版社、出版时间、价格、评分、评语，并将数据存储于CSV文件中

本文为整理代码，梳理思路，验证代码有效性——2019.12.15

环境： Python3（Anaconda3） PyCharm Chrome浏览器

主要模块： lxml requests csv

爬取的豆瓣图书首页如下在这里插入图片描述

分析URL规律

https://book.douban.com/top250? # 首页 https://book.douban.com/top250? start=25 # 第二页 https://book.douban.com/top250? start=50 # 第三页 https://book.douban.com/top250? start=75 # 第四页 ...

可以发现首页的URL与其他的URL格式不一样，但是通过测试发现可以通过URLhttps://book.douban.com/top250?start=0来访问首页我们用列表解析式来构造出相应的URL列表

urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)] 3.

爬取书名、链接、作者、出版社、出版时间、价格、评分、评语等数据在这里插入图片描述分析源码，进行解析利用Xpath对其解析

# 所有信

【本文地址】

爬虫练习

爬虫练习

今日新闻

推荐新闻