Python爬虫初探（九）

您所在的位置：网站首页 › beautifulsoup和bs4一样吗 › Python爬虫初探（九）

Python爬虫初探（九）

2023-09-07 03:55| 来源: 网络整理| 查看: 265

前面两章咱们介绍了Beautifuisoup4模块的简单使用，今天就用它来爬取豆瓣信息。话不多说，咱们开始吧。

一、拿到url地址二、获取豆瓣数据三、保存文件

需求: 爬取标题、评分、详情页的地址

在做这些工作之前，需要提前导入好这些库:

import requests import re import bs4 from bs4 import BeautifulSoup from openpyxl import load_workbook # 该模块是用来读写excel文件的一、拿到url地址

咱们以第一页为例，一共有10页数据，先爬第一页。

url = 'https://movie.douban.com/top250?start=0&filter=

能够发现，start=0，这是第一页。第二页是start=25，每一页url是以25的倍数增长的，依次类推。

这部分代码如下：

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' } response = requests.get(url,headers=headers) response.encoding = 'utf-8' source = response.text 二、获取豆瓣数据

把网页内容转化成bs4对象。

html_element = BeautifulSoup(source,'lxml') 1.获取电影名称

通过标签，可以找到信息所在的位置，据此写出代码如下：在这里插入图片描述

movieItemList = html_element.find_all('span', class_='title') movieItem = [r.string for r in movieItemList]

通过查看列表长度，发现有49个名字，每部电影名称是由中外文名构成，因此理论上应有50个名字，即有一部电影没有外文名。

# 其中有一些空格，把它们替换掉 i = 0 while i

【本文地址】

Python爬虫初探（九）

Python爬虫初探（九）

今日新闻

推荐新闻