Python爬虫初探(九)

您所在的位置:网站首页 beautifulsoup和bs4一样吗 Python爬虫初探(九)

Python爬虫初探(九)

2023-09-07 03:55| 来源: 网络整理| 查看: 265

前面两章咱们介绍了Beautifuisoup4模块的简单使用,今天就用它来爬取豆瓣信息。话不多说,咱们开始吧。

一、拿到url地址 二、获取豆瓣数据 三、保存文件

需求: 爬取标题、评分、详情页的地址

在做这些工作之前,需要提前导入好这些库:

import requests import re import bs4 from bs4 import BeautifulSoup from openpyxl import load_workbook # 该模块是用来读写excel文件的 一、拿到url地址

咱们以第一页为例,一共有10页数据,先爬第一页。

url = 'https://movie.douban.com/top250?start=0&filter=

能够发现,start=0,这是第一页。第二页是start=25,每一页url是以25的倍数增长的,依次类推。

这部分代码如下:

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' } response = requests.get(url,headers=headers) response.encoding = 'utf-8' source = response.text 二、获取豆瓣数据

把网页内容转化成bs4对象。

html_element = BeautifulSoup(source,'lxml') 1.获取电影名称

通过标签,可以找到信息所在的位置,据此写出代码如下: 在这里插入图片描述

movieItemList = html_element.find_all('span', class_='title') movieItem = [r.string for r in movieItemList]

通过查看列表长度,发现有49个名字,每部电影名称是由中外文名构成,因此理论上应有50个名字,即有一部电影没有外文名。

# 其中有一些空格,把它们替换掉 i = 0 while i


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3