python爬虫1

您所在的位置：网站首页 › 基于python爬取豆瓣图书信息正则表达 › python爬虫1

python爬虫1

#python爬虫1| 来源: 网络整理| 查看: 265

第一步导包

第二步发起请求，设置编码格式

第三步调用etree和xpath方法转换数据

第四步用for循环和zip函数把数据写入文件

数据准备：

1、安装好request库，lxml库

2、URL地址：

https://movie.douban.com/top250

3、数据要存放的文件夹位置（注意每个人放的不一样，下面是我放的位置）

D:\code\movie4.txt

步骤及具体代码如下：

第一步导包 # 导包 import requests from lxml import etree 第二步发起请求，设置编码格式

设置编码格式的目的是把r.text的内容变为汉字展示。到这一步可以执行看一下，确认r.text内容里没有乱码。如果出现乱码，就需要修改成其他编码格式。

# 发起get请求 url='https://movie.douban.com/top250' r=requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}) r.encoding='utf-8' print(r.text) 第三步调用etree和xpath方法转换数据

到这一步执行看一下，转换的数据是否为汉字

# 用etree方法转换数据 xp=etree.HTML(r.text) remark_num=xp.xpath('//ol/li/div/div/div/div/span/text()') # 参加评论的人数 remark_content=xp.xpath('//ol/li/div/div/div/p/span/text()') # 评论内容 movie_name=xp.xpath('//ol/li/div/div/div/a/span/text()') # 电影名字 print(remark_num) print(remark_content) print(movie_name) 第四步用for循环和zip函数把数据写入文件

这里【\n】表示换行符，zip( )函数可以把多个可迭代对象打包成元组

for r1,r2,r3 in zip(remark_num,movie_name,remark_content): with open(f'D:/code/movie4.txt','a',encoding='utf-8') as f: f.write(r1) f.write('\n') f.write(r2) f.write('\n') f.write(r3)

最后看一下代码执行的效果

参考文章：【小白必看】Python爬虫实战之批量下载女神图片并保存到本地_批量爬图并下载-CSDN博客

【本文地址】

python爬虫1

python爬虫1

今日新闻

推荐新闻