GitHub 上有哪些优秀的 Python 爬虫项目?

您所在的位置:网站首页 网络爬虫app有哪些 GitHub 上有哪些优秀的 Python 爬虫项目?

GitHub 上有哪些优秀的 Python 爬虫项目?

2023-05-07 17:00| 来源: 网络整理| 查看: 265

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请

求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情,爬虫都能做。

爬虫只能获取到浏览器(客户端)所展示出来的数据。

简而言之:爬虫就是模拟浏览器,发送请求,获取响应。

爬虫的作用

给喜欢的明星点赞、投票

新闻聚合网站: 百度新闻

搜索引擎

抓取微博评论(后期可以实现机器学习的舆情分析)

抓取招聘网站的招聘数据(数据分析、挖掘)

春运期间的12306抢票系统等等

GitHub爬虫项目推荐

楼主问道GitHub 上有哪些优秀的 Python 爬虫项目?

接下来就给大家简单的分享一下,GitHub上优秀的爬虫项目以及对于很多Python工作者如何深入学习爬虫这个技术。

① awesome-spider(GitHub排名第一的爬虫集合,收藏了高达16.8k)

项目地址:https://github.com/facert/awesome-spider

只有你想不到,没有它做不到,拥有众多爬虫工具集合,简单列举几个:

☆ 作为一名IT工作者,你肯定知道暗网,如果想了解互联网更深层次内容,可以使用暗网爬虫。

爬虫工具地址:https://github.com/s-rah/onionscan

☆ 喜欢B站视频的小伙伴,肯定经常获取B站视频信息,一款B站爬虫肯定不能少吧。

爬虫地址:https://github.com/airingursb/bilibili-video

☆ 作为一个找工作的小伙伴,肯定想知道岗位信息、热门公司、招聘需求等等,怎么办?

看Boss招聘地址:https://github.com/xianyunyh/spider_job

这个项目是主要自己研究招聘网站上的职位以及对应的需求准备的一个 python 项目。

项目基于 scrapy框架 进行爬虫,使用 mongodb 存储爬取数据。 前端界面使用vue编写,后端接口为 php。

☆  作为一个热爱编程的大学生或IT工作者,怎么能不知道面向 stackoverflow 编程呢?打开 stackoverflow 主页,在 questions 页面下选择按 vote 排序,爬取前 20000 页,每页将问题数量设置为 50,共 1m 条,(实际上本来是想爬完 13m 条的,但 1m 条后面问题基本上都只有 1 个或 0 个回答,那就选取前 1m 就好吧),实际上用数据库去重后只有 999654 条问答信息。

stackoverflow问答爬虫地址:https://github.com/chenjiandongx/stackoverflow-spider

☆ 乌云漏洞爬虫,2021年最重量级的漏洞在12月9日引爆,12月10日凌晨很多程序员和乙方人员都被迫开始应急响应。Log4j这个组件在java领域被广泛使用,该漏洞非常容易利用,可以执行任意代码。这个漏洞的影响可谓是重量级的。如果作为IT工程师的我们想第一时间爬取乌云平台的信息,都可以通过乌云漏洞爬虫。

爬虫地址:https://github.com/hanc00l/wooyun_public

☆ GitHub上最易用的网易云音乐爬虫系统,喜欢听音乐的小伙伴,不能错过。可以通过爬虫快速爬取网易云音乐。

爬虫地址:https://github.com/chengyumeng/spider163

以下是此库中其他爬虫工具:

② Jack-Cherish/python-spider

GitHub排名第二的爬虫软件,拥有众多案例:

downloader.py:文件下载小助手

一个可以用于下载图片、视频、文件的小工具,有下载进度显示功能。稍加修改即可添加到自己的爬虫中。

动态示意图:

拥有爬虫实战项目:

☆ biqukan.py:笔趣看说网站,爬取小说工具,主要用于爬取小说信息。喜欢看小说的朋友们不能错过哦~

☆ baiduwenku.py: 百度文库word文章爬取。

原理说明:http://blog.csdn.net/c406495762/article/details/72331737,代码不完善,没有进行打包,不具通用性,纯属娱乐。

☆ daili.py: 构建代理IP池。喜欢使用爬虫爬取各种数据,但是很多网站又添加了IP限制。这个时候有一个代理这些问题就可以解决了。

☆ hero.py: 《王者荣耀》推荐出装查询小助手,玩游戏的不知道怎么出装,看这里。

☆ douyin:抖音App视频下载(升级版2)。

抖音App的视频下载,添加视频解析网站,支持无水印视频下载,通过url解析,无需第三方平台。

原理说明: http://cuijiahua.com/blog/2018/03/spider-5.html

动态示意图:

☆ 春运期间,抢不到票怎么办?12306.py:用Python抢火车票简单代码。可以自己慢慢丰富,蛮简单,有爬虫基础很好操作,没有原理说明。

③ Kr1s77/awesome-python-login-model

项目地址:https://github.com/Kr1s77/awesome-python-login-model

一些爬虫示例程序,以及模拟登陆程序,模拟登陆基于 selenium,有些模拟登录基于 js 逆向,持续更新,有问题可以直接提交 Issues,欢迎提交 PR,测试通过可以直接 merge,文中所有程序都是使用 python3,编写 :-)

模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。

虽然在登录的时候采用的是selenium,为了效率,我们可以在登录过后得到的cookie维护起来,然后调用requests或者scrapy等进行数据采集,这样数据采集的速度可以得到保证。

喜欢知乎的小伙伴,想抓取知乎的信息?想采集淘宝的商品评论信息?京东模拟登录,自动申请京东试用?自动登录163邮箱,获取邮件信息?微信网页版登录获取好友信息等等,很神奇吧!

Python爬虫到底如何学习?

针对Github上优秀的Python爬虫项目上面已经介绍完毕了!

针对楼主或者看到这个帖子的小伙伴,我也分享一些我自己学习爬虫的一些经验和方法(高手可忽略)

第一步:首先需要了解爬虫的基本概念与基本流程

第二步:对HTTP和HTTPS协议要有深刻的认识,了解浏览器与服务器之间的通信过程

第三步:学会使用浏览器的开发者工具(如Google浏览器、Firefox浏览器等等)

第四步:Python requests模块(掌握GET、POST请求发送、Cookie处理)

Tip:可以通过requests爬取一些网站如百度贴吧等等

第五步:经过上一步的获取,我们接下来要处理数据了,处理数据的工具也非常多,比如:re模块、jsonpath、bs4、xpath、lxml等等

第六步:Selenium自动化测试工具,主要学习内容:

知道selenium的概念以及作用

能够在当前系统中安装配置好selenium的环境

掌握selenium的基本使用

掌握selenium中定位标签和提取数据的方法

掌握selenium的其他用法切换标签页

切换iframe标签

处理cookie

实现页面等待

在selenium中执行js代码

开启无界面模式

使用代理IP和替换User-Agent

第七步:了解反爬与反反爬

主要了解的是在爬虫的中遇到的反爬和如何进行反反爬,主要知识点有

知道为什么要反爬,以及反爬的方式

知道碰到反爬之后,如何进行反反爬

知道什么是验证码,以及遇到验证码反爬之后如何进行反反爬

知道在爬虫中如何去解析js

第八步:Scrapy 框架

本节主要讲解爬虫中最常用的爬虫框架Scrapy框架,主要知识点有:

掌握 Scrapy 框架的流程

掌握 Scrapy 框架中每个模块的作用

掌握 Scrapy 创建项目和创建爬虫的命令

掌握 Scrapy 中如何编写爬虫代码

掌握 Scrapy 中如何去定义Item去存储要抓取的数据字段

掌握 Scrapy 中如何使用 Item 对象,以及如何将数据交给管道处理

掌握 Scrapy 中管道如何保存数据

掌握 Scrapy 中如构造新的request对象

掌握 Scrapy 中如何进行模拟登陆

掌握 Scrapy 中 CrawlSpider 的使用

掌握 Scrapy 中如何使用中间件实现随机的User-Agent 和 使用代理IP

了解 Scrapy 的运行日志

了解 Scrapy 的配置文件

最后给你推荐一个爬虫的视频,我觉得讲的蛮好的。

Python爬虫热点项目:黑马程序员Python爬虫基础,快速入门Scrapy爬虫框架_哔哩哔哩_bilibili

scrapy爬虫框架:黑马程序员Python爬虫基础,快速入门Scrapy爬虫框架_哔哩哔哩_bilibili

纯手工编码,如果对大家有帮助,点个赞哦~



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3