【python爬虫案例】用python爬豆瓣读书TOP250排行榜!

您所在的位置:网站首页 豆瓣读书top50 【python爬虫案例】用python爬豆瓣读书TOP250排行榜!

【python爬虫案例】用python爬豆瓣读书TOP250排行榜!

2023-07-04 22:58| 来源: 网络整理| 查看: 265

目录一、爬虫对象-豆瓣读书TOP250二、python爬虫代码讲解三、讲解视频四、完整源码

一、爬虫对象-豆瓣读书TOP250

今天我们分享一期python爬虫案例讲解。爬取对象是,豆瓣读书TOP250排行榜数据: https://book.douban.com/top250 ​豆瓣网页

开发好python爬虫代码后,爬取成功后的csv数据,如下: ​结果数据

代码是怎样实现的爬取呢?下面逐一讲解python实现。

二、python爬虫代码讲解

首先,导入需要用到的库:

import requests # 发送请求 from bs4 import BeautifulSoup # 解析网页 import pandas as pd # 存取csv from time import sleep # 等待时间

然后,向豆瓣读书网页发送请求:

res = requests.get(url, headers=headers)

利用BeautifulSoup库解析响应页面:

soup = BeautifulSoup(res.text, 'html.parser')

用BeautifulSoup的select函数,(css解析的方法)编写代码逻辑,部分核心代码:

name = book.select('.pl2 a')[0]['title'] # 书名 book_name.append(name) bkurl = book.select('.pl2 a')[0]['href'] # 书籍链接 book_url.append(bkurl) star = book.select('.rating_nums')[0].text # 书籍评分 book_star.append(star) star_people = book.select('.pl')[1].text # 评分人数 star_people = star_people.strip().replace(' ', '').replace('人评价', '').replace('(\n', '').replace('\n)', '') # 数据清洗 book_star_people.append(star_people)

最后,将爬取到的数据保存到csv文件中:

def save_to_csv(csv_name): """ 数据保存到csv :return: None """ df = pd.DataFrame() # 初始化一个DataFrame对象 df['书名'] = book_name df['豆瓣链接'] = book_url df['作者'] = book_author df['译者'] = book_translater df['出版社'] = book_publisher df['出版日期'] = book_pub_year df['价格'] = book_price df['评分'] = book_star df['评分人数'] = book_star_people df['一句话评价'] = book_comment df.to_csv(csv_name, encoding='utf8') # 将数据保存到csv文件

其中,把各个list赋值为DataFrame的各个列,就把list数据转换为了DataFrame数据,然后直接to_csv保存。 这样,爬取的数据就持久化保存下来了。

三、讲解视频

同步讲解视频:https://www.zhihu.com/zvideo/1464515550177546240

四、完整源码

附完整源代码:【python爬虫案例】利用python爬虫爬取豆瓣读书TOP250的数据!

我是 @马哥python说 ,持续分享python源码干货中!



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3