一文读懂网站抓取和收录那些事

您所在的位置：网站首页 › 网站收录原理分析 › 一文读懂网站抓取和收录那些事

一文读懂网站抓取和收录那些事

2024-05-28 22:22| 来源: 网络整理| 查看: 265

很多SEO从业者都有一个苦恼的问题：网站建好了，为什么搜索引擎迟迟不收录我的网站？页面收录作为网站竞争排名的最基本条件，没有收录，就没有展示，也就无法竞争排名获取SEO流量了。

本文将围绕抓取和收录两点，从基本概念，常见问题及解决方法三个维度探讨，希望对大家有用。

1. 什么是抓取，收录，抓取配额？

首先，先来简单介绍一下抓取，收录，抓取配额这3个名词。

①抓取（Crawl）：

就是搜索引擎爬虫爬取网站的这个过程。Google的官方解释是——“抓取”是指找出新网页或更新后的网页以将其添加到 Google 中的过程；（点击此处查看谷歌官网文档）

②收录（Index）：

就是搜索引擎把页面存储到其数据库的结果，也叫索引。Google的官方解释是：Google 抓取工具（“Googlebot”）已访问该网页、已分析其内容和含义并已将其存储在 Google 索引中。已编入索引的网页可以显示在 Google 搜索结果中；（点击此处查看谷歌官网文档）

③抓取配额（Crawl Budget）：

是搜索引擎蜘蛛花在一个网站上的抓取页面的总时间上限。一般小型网站（几百上千个页面）其实并不需要担心，搜索引擎分配的抓取配额够不够；大型网站（百万级或千万级页面）会考虑这个问题更多一些。假如搜索引擎每天抓取的页面数几万个，那整个网站的页面抓取可能就得数月或一年。一般这个数据可以通过Google Search Console后台了解到，如下截图所示，红框中的平均值即网站分配所得的抓取配额。

通过一个例子来让大家更好地理解抓取，收录及抓取配额：

把搜索引擎比喻为一座庞大的图书馆，把网站比喻为一间书店，书店中的书本比喻为网站页面，蜘蛛爬虫比喻为图书馆采购员。

采购员为了丰富图书馆的藏书，会定期到书店查看是否有新的书本进货，翻阅书本的这个过程就可以理解为抓取；

当采购员觉得这本书有价值，就会购买带回图书馆进行收藏，这个书本收藏就是我们所说的收录；

每个采购员的购书预算是有限的，他会优先购买价值高的书本，这个预算就是我们理解的抓取配额。

2.如何查看网站的收录情况？

清楚了基本概念后，我们怎么查看网站或页面是否被收录呢？

①通过Site命令。主流的搜索引擎如Google，Baidu及Bing都是支持Site命令的。通过Site命令可以在宏观层面查看一个网站被收录了多少页面，这个数值是不精确的，有一定的波动性，但是具有一定的参考价值。如下图所示，crossborderdigital.cn 网站被Google收录的网页数大概为 296个。

②如果网站已经验证了Google Search Co

【本文地址】

一文读懂网站抓取和收录那些事

一文读懂网站抓取和收录那些事

今日新闻

推荐新闻