如何使用wget获取整个网站的全部内容

2023-12-08 02:32| 来源: 网络整理| 查看: 265

个人博客alvincr.com，本文是https://alvincr.com/2021/01/static_github_pages/一文的部分内容

我用过wget命令爬取整个网站，还算好用。

命令：wget https://alvincr.com/2021/01/can-not-login-in-backstage/

完整命令：wget -c -r -np -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ （千万别复制测试）（另：请大家学习爬取的时候，请对我的网站手下留情，服务器撑不住爬取整个网站）

wget -c -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/

参数说明：

-c用于断点传输，对于较小的网页没必要

-r 递归下载，慎用，建议与np一起使用

-np 递归下载是不搜索上层目录

-p 下载网页所需要的所有文件（图片，js脚本，css）

-k 将绝对路径转化为相对路径，-k与-p一同使用保存到其它服务器上不会占用自己服务器的资源

提醒

完整命令：wget -c -r -np -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ （千万别复制）

后果如下：如果真的出现这种后果，建议使用mv命令将该文件夹移动到其它地方暂存，确定不需要再删除。

经过我测试发现，产生如此大量文件的原因是递归下载，并非是-p下载网页所需所有文件。使用-p参数最终只生成4个文件夹，注意这里的html文件是残留文件，代码返回报告考研看出并没有下载index.html这个文件。

【本文地址】

今日新闻