漫画网站破解+爬虫+整合网站实例 |
您所在的位置:网站首页 › 求看漫画免费网站大全在线观看 › 漫画网站破解+爬虫+整合网站实例 |
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1 源起最近在某个社交媒体上看到个韩漫网站,点进去看了几章,感觉还不错,无奈就是前几章都是免费,再看就需要掏金币,然后搜索了漫画,发现此类漫画归根结底都是盗取的一个叫顶通的韩国网站的资源。
习惯性的F12调开network看看有没有什么猫腻或者漏洞,意外的发现漫画数据是通过接口json格式传输的!
这种情况简直就是告诉我快来爬我爬我… 设计思路就是 1.首先通过程序将网站数据爬取到数据库中 2.然后在将漫画的图片爬取到本地中 3 最后开发简单的预览网站以便自己随时浏览 2 接口分析这种api接口的数据算是最简单的一种,简单方便,直接分析接口就行了 访问接口的时候因为是通过程序访问时需要注意cookies的,一般这种情况直接从浏览器中原样复制一份数据设置到程序中即可 找到可以获取全部漫画数据的接口,通过观察发现,底部菜单的分类按钮是一个分页获取所有漫画的接口 所有漫画抓取下来,通过循环分页获取将所有的数据查询下来存入数据库的漫画表 cartoon表 然后再通过循环访问cartoon表,通过循环分页获取将所有的章节数据查询下来存入数据库的漫画表 chapter表
爬虫的过程中,对我们的程序进行适当的延时,调用sleep()函数。这样降低访问网页的速度,防止程序被看门狗屏蔽 3 程序设计接下来就是最重要的爬取图片逻辑… 考虑后续章节的更新可以增加字段用以拓展 比如在cartoon表中增加 mhstatus ,lock 和 finish 字段
就这样写完程序第一次爬取就用了大概三天的时间,中间有关机休息,总共是爬取了320本漫画,11702个章节约40G的资源(目前已80G) 4 网站呈现 漫画都是图片目录观看很不方便,因此需要开发一个简单的网站,这个对于一个程序员应该说都不难,因为是自己看所以不需要注册 不需要会员 更不需要金币和广告,直接运行在自己家的电脑上一个网址就可以于是就第一版的网站不到一个小时就搞出来了,真的是简单暴力!点开即看!
然而真的很简单吗?实际体验中发现许多问题了,即使仅自己看的网站都是需要打磨,需要下功夫的,主要问题有 1 没有观看记录,每次都需要翻开自己上次看到哪里了 2 没有自动翻页 3 看过看完的作品始终在前排呈现每次还是都要翻 4 没有下一章上一章 需要后退点下一章于是接着开干,一一解决了以上几个问题 漫画分类有 看过 未看 收藏三个分类,回看直接会看上一次看到的章节
在观看页面增加 top button按钮,自动滚屏,上一张下一章功能
搞到这里发现为了看个漫画我费了多大劲! 然而还没完,在实际浏览中真的有很漂亮的图想保存下来,如果另存为的话是不行的,因为这是条漫,你只想截取一个画面,但有可能是好几个对话的内容都被下载了,怎么办呢?继续搞!思路是通过在图片上定位两个点,然后通过两个点的高度与图片的长度进行比例计算然后传到后台,在后台进行图片比例裁剪,直接保存到服务器上,多说无益直接上图看效果
通过点击两次点击 绿线开始 红线结束,即可将区域内的图片单独截取下来
收藏图库中所截取的图片和页面截取区域相差不大,可以接受 5 部署运行 一开始是用家式电脑搞的,但是实际使用中不能老开着电脑当服务器,主要是对电脑的损耗,其次是费电啊!(其实主要是费电,穷),所以就需要一个功耗低的方案,我一开始想到的是树莓派,但是树莓派也是需要花钱买的!于是我重新启用了我大学时候的破电脑,2G内存开个浏览器都会卡的那种,不过这种性能做个网页服务还是可以的。开搞! linux系统,我安装的centos 7 最小化安装,连可视化界面都不要的那种方案:一切为了节省性能 用网线连接网络,安装网络驱动,安装ntfs驱动,安装数据库,安装java坏境,保证笔记本可以无线ssh登录,读取移动硬盘即可 复制图片资源到笔记本 复制网站程序到笔记本,将程序添加到自启动列表中,到此一切结束,大概花费了一周时间,到此就拥有了一个私人漫画网站! 6 后续后来为了保证散热我把笔记本的后壳敲调一大块,为了轻便还把屏幕给卸掉,所有无关的配件能拆就拆,最后想说2G内存跑起来还是可以的
欢迎关注公众号,获取更多文章 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |