robots.txt屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃(资源宝博客整理分享)

您所在的位置:网站首页 蜘蛛爬取测试 robots.txt屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃(资源宝博客整理分享)

robots.txt屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃(资源宝博客整理分享)

#robots.txt屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃(资源宝博客整理分享)| 来源: 网络整理| 查看: 265

屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃

robots协议 也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的蜘蛛,此网站中的哪些内容是不应被搜索引擎的蜘蛛获取的,哪些是可以被蜘蛛获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的蜘蛛访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。 robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

下面以WP博客做例子:

User-agent: * Disallow: /wp-admin/ Disallow: /wp-include/ Disallow: /wp-login.php?redirect_to=* Disallow: /go?_=* Allow: /wp-admin/admin-ajax.php User-agent: MJ12bot Disallow: / User-agent: YisouSpider Disallow: / User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / User-agent: SemrushBot-BA Disallow: / User-agent: SemrushBot-SI Disallow: / User-agent: SemrushBot-SWA Disallow: / User-agent: SemrushBot-CT Disallow: / User-agent: SemrushBot-BM Disallow: / User-agent: SemrushBot-SEOAB Disallow: / user-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: Uptimebot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: ZoominfoBot Disallow: / User-agent: Mail.Ru Disallow: / User-agent: BLEXBot Disallow: / User-agent: ExtLinksBot Disallow: / User-agent: aiHitBot Disallow: / User-agent: Researchscan Disallow: / User-agent: DnyzBot Disallow: / User-agent: spbot Disallow: / User-agent: YandexBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / User-agent: SemrushBot-BA Disallow: / User-agent: SemrushBot-SI Disallow: / User-agent: SemrushBot-SWA Disallow: / User-agent: SemrushBot-CT Disallow: / User-agent: SemrushBot-BM Disallow: / User-agent: SemrushBot-SEOAB Disallow: / Sitemap: http://www.httple.net/sitemap.xml

将上面代码复制到网站根目录下的robot.txt文件里,这样可以屏蔽掉以上的垃圾蜘蛛对于网站的抓取。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3