【爬虫学习】实战篇1：猫眼电影票房爬虫

您所在的位置：网站首页 › 实时票房哪里查看比较准确一点 › 【爬虫学习】实战篇1：猫眼电影票房爬虫

【爬虫学习】实战篇1：猫眼电影票房爬虫

2024-07-04 16:01| 来源: 网络整理| 查看: 265

今天咱们来学习一个爬虫的具体实战：爬取猫眼电影票房的数据。

目标：使用python自带的urllib库编写一个小程序，我们只需启动小程序，就可以实时爬取猫眼的电影票房数据，并自动将数据生成一个excel保存至本地文件夹。

接下来，我将尽可能详细地介绍爬虫编写的步骤，希望大家可以跟着我一步步操作，全部编写完成之后，我们可以展开想象的翅膀，触类旁通，使用相同的技巧去获取自己需要的公开数据吧！

步骤1：打开猫眼的官网，查看首页的内容，并获取对应的url。

上图就是打开猫眼票房之后的页面，大约公布了80+部目前在放映的电影名称和综合票房的数据，这个数据就是我们希望爬取的数据。同时，url我们也已经知道了：

https://piaofang.maoyan.com/dashboard

步骤2：打开python终端，导入urllib库和request模块，编写请求头，获取完整HTML代码。

这个步骤是单纯地写代码，代码我就不详细解释了，如下：

from urllib import request # 填写猫眼url： url = 'https://piaofang.maoyan.com/dashboard ' # 填写user-agent: header = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36' } # 使用request模块中的Request类，创建一个猫眼url对应的类： resp = request.Request(url,headers=header) # 使用request模块中的urlopen函数，打开上面的resp： resp_html = request.urlopen(resp) # 打印猫眼的html代码： print(resp_html.read())

运行代码，发生报错：

错误原因中文翻译：证书验证失败：无法获取本地颁发者证书。

说实话，不太懂SSL证书的含义，但是通过CSDN查询，只要在代码开头引入ssl并取消ssl认证就不会再报错了。

from urllib import request # 引入ssl，取消全局ssl认证： import ssl ssl._create_default_https_context = ssl._create_unverified_context # 填写猫眼url： url = 'https://piaofang.maoyan.com/dashboard ' # 填写user-agent: header = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36' } # 使用request模块中的Request类，创建一个猫眼url对应的类： resp = request.Request(url,headers=header) # 使用request模块中的urlopen函数，打开上面的resp： resp_html = request.urlopen(resp) # 打印猫眼的html代码： print(resp_html.read())