Python爬虫初探(九) |
您所在的位置:网站首页 › beautifulsoup和bs4一样吗 › Python爬虫初探(九) |
前面两章咱们介绍了Beautifuisoup4模块的简单使用,今天就用它来爬取豆瓣信息。话不多说,咱们开始吧。 一、拿到url地址 二、获取豆瓣数据 三、保存文件 需求: 爬取标题、评分、详情页的地址 在做这些工作之前,需要提前导入好这些库: import requests import re import bs4 from bs4 import BeautifulSoup from openpyxl import load_workbook # 该模块是用来读写excel文件的 一、拿到url地址咱们以第一页为例,一共有10页数据,先爬第一页。 url = 'https://movie.douban.com/top250?start=0&filter=能够发现,start=0,这是第一页。第二页是start=25,每一页url是以25的倍数增长的,依次类推。 这部分代码如下: headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' } response = requests.get(url,headers=headers) response.encoding = 'utf-8' source = response.text 二、获取豆瓣数据把网页内容转化成bs4对象。 html_element = BeautifulSoup(source,'lxml') 1.获取电影名称通过标签,可以找到信息所在的位置,据此写出代码如下: 通过查看列表长度,发现有49个名字,每部电影名称是由中外文名构成,因此理论上应有50个名字,即有一部电影没有外文名。 # 其中有一些空格,把它们替换掉 i = 0 while i |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |