如何使用wget获取整个网站的全部内容 |
您所在的位置:网站首页 › 全站网页下载 › 如何使用wget获取整个网站的全部内容 |
个人博客alvincr.com,本文是https://alvincr.com/2021/01/static_github_pages/一文的部分内容 我用过wget命令爬取整个网站,还算好用。 命令:wget https://alvincr.com/2021/01/can-not-login-in-backstage/ 完整命令:wget -c -r -np -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ (千万别复制测试)(另:请大家学习爬取的时候,请对我的网站手下留情,服务器撑不住爬取整个网站) wget -c -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ 参数说明: -c用于断点传输,对于较小的网页没必要 -r 递归下载,慎用,建议与np一起使用 -np 递归下载是不搜索上层目录 -p 下载网页所需要的所有文件(图片,js脚本,css) -k 将绝对路径转化为相对路径,-k与-p一同使用保存到其它服务器上不会占用自己服务器的资源 提醒 完整命令:wget -c -r -np -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ (千万别复制) 后果如下:如果真的出现这种后果,建议使用mv命令将该文件夹移动到其它地方暂存,确定不需要再删除。 经过我测试发现,产生如此大量文件的原因是递归下载,并非是-p下载网页所需所有文件。使用-p参数最终只生成4个文件夹,注意这里的html文件是残留文件,代码返回报告考研看出并没有下载index.html这个文件。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |