Python+bs4实现爬取小说并下载到本地

您所在的位置:网站首页 pycharm怎么下载bs4 Python+bs4实现爬取小说并下载到本地

Python+bs4实现爬取小说并下载到本地

2023-05-13 07:37| 来源: 网络整理| 查看: 265

Python+bs4实现爬取小说并下载到本地 前言

在公司闲的无聊之际,想研究研究python的bs模块,试着写一写爬虫。但是公司有限制,娱乐网址一律不能访问,最后发现小说网站还能进,那就你了。开整~

以前觉得这东西挺low的,从页面上抓取数据什么的我一直都觉得没啥意思,不过今天我居然开始感觉到了一些成就感。

一、引包

本次爬虫主要用到了两个库:

import requests from bs4 import BeautifulSoup

requests模块用于模拟请求,获取响应页面;bs4模块用于解析响应的页面,方便获取页面标签。

二、代理问题

本来想先试试水,用简单的代码试试能不能访问页面,结果一试就出现了下面的问题:

Traceback (most recent call last): File "D:/PycharmProjects/NovelCrawling/novel_crawling.py", line 109, in pre_op book_info = search_by_kewords(keword) File "D:/PycharmProjects/NovelCrawling/novel_crawling.py", line 89, in search_by_kewords soup = BeautifulSoup(result_html, 'lxml') File "D:\python\lib\site-packages\bs4\__init__.py", line 310, in __init__ elif len(markup)


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3