爬虫练习 |
您所在的位置:网站首页 › 书籍的基本信息是什么 › 爬虫练习 |
前言
爬取豆瓣网图书TOP250的数据,书名、链接、作者、出版社、出版时间、价格、评分、评语,并将数据存储于CSV文件中 本文为整理代码,梳理思路,验证代码有效性——2019.12.15 环境: Python3(Anaconda3) PyCharm Chrome浏览器 主要模块: lxml requests csv 1.爬取的豆瓣图书首页如下 分析URL规律 https://book.douban.com/top250? # 首页 https://book.douban.com/top250? start=25 # 第二页 https://book.douban.com/top250? start=50 # 第三页 https://book.douban.com/top250? start=75 # 第四页 ...可以发现首页的URL与其他的URL格式不一样,但是通过测试发现可以通过URLhttps://book.douban.com/top250?start=0来访问首页 我们用列表解析式来构造出相应的URL列表 urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)] 3.爬取书名、链接、作者、出版社、出版时间、价格、评分、评语等数据 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |