搜索引擎（蜘蛛）抓取内容规则

2024-07-05 12:52| 来源: 网络整理| 查看: 265

搜索引擎spider爬虫（蜘蛛）

其实当你了解了搜索引擎的工作流程、策略和基本算法后，就可以在一定程序上避免因为不当操作而带来的不必要处罚，同也可以快速分析出很多搜索引擎搜索结果异常的原因。有搜索行为的地方就有搜索引擎，

站内搜索、全网搜索、垂直搜索等都用到搜索引擎；

百度抓取网页是由蜘蛛抓取的，有的人会对蜘蛛有疑问，下面介绍一下：

什么是蜘蛛：

简单的来说就是抓取网站内容的程序，

当然每个搜索引擎都有各自的蜘蛛只是叫法名字不同比如

百度的：BaiduSipder

谷歌的：谷歌机器人 Googlebot

360的：360蜘蛛 360 Spider

搜狗的： sougospider

等等..........

蜘蛛抓取规则

简单的介绍一下深度优先和广度优先

深度优先

深度优先策略即一条道走到黑，当沿着一个路径走到无路可走时，再返回来走另一条路。

广度优先

广度优先策略即spider在一个页面上发现多个链接时，并不是一条道路走到黑的，顺着一个链接继续抓下去，而是先把这些页面抓一遍，然后再抓从这些页面中提取下来的链接

深度优先和广度优先的示意图

深度优先抓取策略

广度优先抓取策略

搜索引擎主动抓取网页，并进行内容处理

按照一定策略把网页抓回到搜索引擎服务器；

对抓回的网页进行链接抽离、内容处理，削除噪声、提取该页主题文本内容等；

对网页的文本内容进行中文分词、去除停止词等；

对网页内容进行分词后判断该页面内容与已索引网页是否有重复，去除重复页，对剩余网页进行排序索引，然后等待用户的检索。

以上的是我的个人理解如有错如望各位大佬指出，希望对大家有帮助ヽ(ﾟ∀ﾟ)ﾒ(ﾟ∀ﾟ)ﾉ，对您有用就点个赞支持下(。ゝω・。)☆

【本文地址】

今日新闻