搜索引擎(蜘蛛)抓取内容规则

您所在的位置:网站首页 蜘蛛爬取规则 搜索引擎(蜘蛛)抓取内容规则

搜索引擎(蜘蛛)抓取内容规则

2024-07-05 12:52| 来源: 网络整理| 查看: 265

 搜索引擎spider爬虫(蜘蛛)

其实当你了解了搜索引擎的工作流程、策略和基本算法后,就可以在一定程序上避免因为不当操作而带来的不必要处罚,同也可以快速分析出很多搜索引擎搜索结果异常的原因。有搜索行为的地方就有搜索引擎,

站内搜索、全网搜索、垂直搜索等都用到搜索引擎;

 

百度抓取网页是由 蜘蛛抓取的,有的人会对蜘蛛有疑问,下面介绍一下:

什么是蜘蛛:

   简单的来说就是抓取网站内容的程序 ,

当然每个搜索引擎都有各自的蜘蛛只是叫法名字不同比如

百度的:BaiduSipder  

谷歌的:谷歌机器人 Googlebot

360的:360蜘蛛 360 Spider

搜狗的: sougospider

等等..........

 蜘蛛抓取规则

  简单的介绍一下深度优先 和 广度优先

深度优先

         深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路。

广度优先

         广度优先策略即spider在一个页面上发现多个链接时,并不是一条道路走到黑的,顺着一个链接继续抓下去,而是先把这些页面抓一遍,然后再抓从这些页面中提取下来的链接

 

 

深度优先 和 广度优先的示意图

深度优先抓取策略

广度优先抓取策略

 

 

 

搜索引擎主动抓取网页,并进行内容处理

按照一定策略把网页抓回到搜索引擎服务器;

对抓回的网页进行链接抽离、内容处理,削除噪声、提取该页主题文本内容等;

对网页的文本内容进行中文分词、去除停止词等;

对网页内容进行分词后判断该页面内容与已索引网页是否有重复,去除重复页,对剩余网页进行排序索引,然后等待用户的检索。

 

 

 

 

 

 

 

 

以上的是我的个人理解如有错如望各位大佬指出,希望对大家有帮助ヽ(゚∀゚)メ(゚∀゚)ノ ,对您有用就点个赞支持下(。ゝω・。)☆



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3