beautifulsoup爬虫应用之豆瓣电影top25爬取

您所在的位置:网站首页 豆瓣电影排名250名 beautifulsoup爬虫应用之豆瓣电影top25爬取

beautifulsoup爬虫应用之豆瓣电影top25爬取

2023-10-21 01:56| 来源: 网络整理| 查看: 265

BeautifulSoup爬虫应用之豆瓣电影TOP25爬取 BeautifulSoup介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

豆瓣电影

喜欢看电影的小伙伴一定都听说过豆瓣评分 那什么是豆瓣电影TOP250呢? 下面给出该榜单的介绍:豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。

在这里插入图片描述

爬取内容

爬取内容包括电影名称、导演、主演、上映年份、制片国家/地区、评分、评论人数、引用/推荐语 在这里插入图片描述

爬取过程 导入模块

这里用到主要用到BeautifulSoup和pandas

import requests from bs4 import BeautifulSoup import pandas as pd

设置headers,用get请求方式,显示200则表示成功

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/23.0' } r = requests.get("https://movie.douban.com/top250", headers=headers)

用beautifulsoup将网页解析成lxml

bs=BeautifulSoup(r.text,'lxml')

然后用find_all进行抓取相关数据

movie=[i.find('span').text for i in bs.find_all('div','hd')] #名称 short_comment=[i.find('span'


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3