一文读懂网站抓取和收录那些事

您所在的位置:网站首页 网站收录原理分析 一文读懂网站抓取和收录那些事

一文读懂网站抓取和收录那些事

2024-05-28 22:22| 来源: 网络整理| 查看: 265

很多SEO从业者都有一个苦恼的问题:网站建好了,为什么搜索引擎迟迟不收录我的网站?页面收录作为网站竞争排名的最基本条件,没有收录,就没有展示,也就无法竞争排名获取SEO流量了。

本文将围绕抓取和收录两点,从基本概念,常见问题及解决方法三个维度探讨,希望对大家有用。

1. 什么是抓取,收录,抓取配额?

首先,先来简单介绍一下抓取,收录,抓取配额这3个名词。

①抓取(Crawl)

就是搜索引擎爬虫爬取网站的这个过程。Google的官方解释是——“抓取”是指找出新网页或更新后的网页以将其添加到 Google 中的过程;(点击此处查看谷歌官网文档)

②收录(Index)

就是搜索引擎把页面存储到其数据库的结果,也叫索引。Google的官方解释是:Google 抓取工具(“Googlebot”)已访问该网页、已分析其内容和含义并已将其存储在 Google 索引中。已编入索引的网页可以显示在 Google 搜索结果中;(点击此处查看谷歌官网文档)

③抓取配额(Crawl Budget)

是搜索引擎蜘蛛花在一个网站上的抓取页面的总时间上限。一般小型网站(几百上千个页面)其实并不需要担心,搜索引擎分配的抓取配额够不够;大型网站(百万级或千万级页面)会考虑这个问题更多一些。假如搜索引擎每天抓取的页面数几万个,那整个网站的页面抓取可能就得数月或一年。一般这个数据可以通过Google Search Console后台了解到,如下截图所示,红框中的平均值即网站分配所得的抓取配额。

通过一个例子来让大家更好地理解抓取,收录及抓取配额:

把搜索引擎比喻为一座庞大的图书馆,把网站比喻为一间书店,书店中的书本比喻为网站页面,蜘蛛爬虫比喻为图书馆采购员。

采购员为了丰富图书馆的藏书,会定期到书店查看是否有新的书本进货,翻阅书本的这个过程就可以理解为抓取;

当采购员觉得这本书有价值,就会购买带回图书馆进行收藏,这个书本收藏就是我们所说的收录;

每个采购员的购书预算是有限的,他会优先购买价值高的书本,这个预算就是我们理解的抓取配额。

2.如何查看网站的收录情况?

清楚了基本概念后,我们怎么查看网站或页面是否被收录呢?

通过Site命令。主流的搜索引擎如Google,Baidu及Bing都是支持Site命令的。通过Site命令可以在宏观层面查看一个网站被收录了多少页面,这个数值是不精确的,有一定的波动性,但是具有一定的参考价值。如下图所示,crossborderdigital.cn 网站被Google收录的网页数大概为 296个。

②如果网站已经验证了Google Search Co



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3