Python+bs4实现爬取小说并下载到本地 |
您所在的位置:网站首页 › pycharm怎么下载bs4 › Python+bs4实现爬取小说并下载到本地 |
Python+bs4实现爬取小说并下载到本地
前言
在公司闲的无聊之际,想研究研究python的bs模块,试着写一写爬虫。但是公司有限制,娱乐网址一律不能访问,最后发现小说网站还能进,那就你了。开整~ 以前觉得这东西挺low的,从页面上抓取数据什么的我一直都觉得没啥意思,不过今天我居然开始感觉到了一些成就感。 一、引包本次爬虫主要用到了两个库: import requests from bs4 import BeautifulSouprequests模块用于模拟请求,获取响应页面;bs4模块用于解析响应的页面,方便获取页面标签。 二、代理问题本来想先试试水,用简单的代码试试能不能访问页面,结果一试就出现了下面的问题: Traceback (most recent call last): File "D:/PycharmProjects/NovelCrawling/novel_crawling.py", line 109, in pre_op book_info = search_by_kewords(keword) File "D:/PycharmProjects/NovelCrawling/novel_crawling.py", line 89, in search_by_kewords soup = BeautifulSoup(result_html, 'lxml') File "D:\python\lib\site-packages\bs4\__init__.py", line 310, in __init__ elif len(markup) |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |