python面向对象爬取肖战图片 |
您所在的位置:网站首页 › 肖战星推荐 › python面向对象爬取肖战图片 |
今天小编想大家介绍的是用python在堆糖上爬取肖战的图片。 主要步骤:1.获取网址 2.运用requests包模拟网站,向服务器发送请求,获取响应 3.清洗数据,通过正则表达式筛选自己需要的数据 4.保存数据 关键字:requests,正则表达式,面向对象 本文通过面向对象的方法介绍爬虫,下一期小编在介绍面向过程如何爬取。 现在就正式给大家讲解爬虫步骤。 import re # 正则表达式 import requests # 爬虫用的包 from urllib.request import urlretrieve # 本文用来下载图片 import os # 标准库,本文用来新建文件夹1.构建大体框架 构建好面向对象的大体框架,分好步骤,这样写代码思路才够清晰。 class Xiaozhan(object): def __init__(self): pass def run(self): pass if __name__ == "__main__": xiaozhan = Xiaozhan() xiaozhan.run()构建好这样的框架才能饶昂整个程序跑起来,run函数则是我们的主函数,那么我们在主函数里先注释好我们需要做的步骤,主要步骤则是开始写的四条。 2.获取网址 def __init__(self): self.base_url = "https://www.duitang.com/search/?kw=肖战&type=feed#!s-p{}"
定义一个列表来保存网址,通过for循环增加网址。基础网址我们已经初始化了,这里可以直接用。 3.发送请求,获取响应 那么现在我们有了网址,下一波就模拟网页想服务器发送请求,获取响应。 点击鼠标右键,点击检查(小编用的谷歌浏览器,其他浏览器也可以右键) 定义函数来获取网页的源代码,运行函数 def Respons(self, all_url): text_list=[] for url in all_url: r = requests.get(url, headers=self.header) text_list.append(r.text) return text_list
|
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |