如何使用wget获取整个网站的全部内容

您所在的位置:网站首页 全站网页下载 如何使用wget获取整个网站的全部内容

如何使用wget获取整个网站的全部内容

2023-12-08 02:32| 来源: 网络整理| 查看: 265

个人博客alvincr.com,本文是https://alvincr.com/2021/01/static_github_pages/一文的部分内容

我用过wget命令爬取整个网站,还算好用。

命令:wget https://alvincr.com/2021/01/can-not-login-in-backstage/

完整命令:wget -c -r -np -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ (千万别复制测试)(另:请大家学习爬取的时候,请对我的网站手下留情,服务器撑不住爬取整个网站)

wget -c -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/

参数说明:

-c用于断点传输,对于较小的网页没必要

-r 递归下载,慎用,建议与np一起使用

-np 递归下载是不搜索上层目录

-p 下载网页所需要的所有文件(图片,js脚本,css)

-k 将绝对路径转化为相对路径,-k与-p一同使用保存到其它服务器上不会占用自己服务器的资源

提醒

完整命令:wget -c -r -np -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ (千万别复制)

后果如下:如果真的出现这种后果,建议使用mv命令将该文件夹移动到其它地方暂存,确定不需要再删除。

经过我测试发现,产生如此大量文件的原因是递归下载,并非是-p下载网页所需所有文件。使用-p参数最终只生成4个文件夹,注意这里的html文件是残留文件,代码返回报告考研看出并没有下载index.html这个文件。

 


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3