Python爬虫数据存储之TXT文本

您所在的位置:网站首页 保存网页为文本文件怎么弄 Python爬虫数据存储之TXT文本

Python爬虫数据存储之TXT文本

#Python爬虫数据存储之TXT文本| 来源: 网络整理| 查看: 265

前言:获取数据后可以选择多种存储方式,可以是TXT纯文本形式,也可以为JSON格式、CSV格式等。TXT文本几乎兼容任何平台,但不利于检索的缺点也暴露无遗。若是对检索和数据结构的要求不高,追求方便的情况下可以采用TXT文本存储。

参考:《Python3网络爬虫开发实战-崔庆才》

一,实例

保存知乎上“法线页面的‘热门话题”部分,将其问题和答案统一保存成文本形式。

思路:

1. 使用requests将网页源代码获取下来 2. 使用pyquery解析库解析 3. 提取标题、回答者、回答保存为文本

code:

''' 以知乎为例 1. 使用requests将网页源代码获取下来 2. 使用pyquery解析库解析 3. 提取标题、回答者、回答保存为文本 ''' import requests from pyquery import PyQuery as pq url = 'https://www.zhihu.com/explore' headers = { 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' } html = requests.get(url,headers=headers).text doc = pq(html) items = doc('.explore-tab .feed-item').items() # 遍历 for item in items: question = item.find('h2').text() a


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3