python爬虫1 |
您所在的位置:网站首页 › 基于python爬取豆瓣图书信息正则表达 › python爬虫1 |
目录 第一步 导包 第二步 发起请求,设置编码格式 第三步 调用etree和xpath方法转换数据 第四步 用for循环和zip函数把数据写入文件 数据准备: 1、安装好request库,lxml库 2、URL地址: https://movie.douban.com/top250 3、数据要存放的文件夹位置(注意每个人放的不一样,下面是我放的位置) D:\code\movie4.txt 步骤及具体代码如下: 第一步 导包 # 导包 import requests from lxml import etree 第二步 发起请求,设置编码格式设置编码格式的目的是把r.text的内容变为汉字展示。 到这一步可以执行看一下,确认r.text内容里没有乱码。 如果出现乱码,就需要修改成其他编码格式。 # 发起get请求 url='https://movie.douban.com/top250' r=requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}) r.encoding='utf-8' print(r.text) 第三步 调用etree和xpath方法转换数据到这一步执行看一下,转换的数据是否为汉字 # 用etree方法转换数据 xp=etree.HTML(r.text) remark_num=xp.xpath('//ol/li/div/div/div/div/span/text()') # 参加评论的人数 remark_content=xp.xpath('//ol/li/div/div/div/p/span/text()') # 评论内容 movie_name=xp.xpath('//ol/li/div/div/div/a/span/text()') # 电影名字 print(remark_num) print(remark_content) print(movie_name) 第四步 用for循环和zip函数把数据写入文件这里【\n】表示换行符,zip( )函数可以把多个可迭代对象打包成元组 for r1,r2,r3 in zip(remark_num,movie_name,remark_content): with open(f'D:/code/movie4.txt','a',encoding='utf-8') as f: f.write(r1) f.write('\n') f.write(r2) f.write('\n') f.write(r3)最后看一下代码执行的效果 参考文章:【小白必看】Python爬虫实战之批量下载女神图片并保存到本地_批量爬图并下载-CSDN博客 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |