搜索引擎(蜘蛛)抓取内容规则 |
您所在的位置:网站首页 › 蜘蛛爬取规则 › 搜索引擎(蜘蛛)抓取内容规则 |
搜索引擎spider爬虫(蜘蛛)
其实当你了解了搜索引擎的工作流程、策略和基本算法后,就可以在一定程序上避免因为不当操作而带来的不必要处罚,同也可以快速分析出很多搜索引擎搜索结果异常的原因。有搜索行为的地方就有搜索引擎, 站内搜索、全网搜索、垂直搜索等都用到搜索引擎;
百度抓取网页是由 蜘蛛抓取的,有的人会对蜘蛛有疑问,下面介绍一下: 什么是蜘蛛:简单的来说就是抓取网站内容的程序 , 当然每个搜索引擎都有各自的蜘蛛只是叫法名字不同比如 百度的:BaiduSipder 谷歌的:谷歌机器人 Googlebot 360的:360蜘蛛 360 Spider 搜狗的: sougospider 等等.......... 蜘蛛抓取规则简单的介绍一下深度优先 和 广度优先 深度优先深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路。 广度优先广度优先策略即spider在一个页面上发现多个链接时,并不是一条道路走到黑的,顺着一个链接继续抓下去,而是先把这些页面抓一遍,然后再抓从这些页面中提取下来的链接
深度优先 和 广度优先的示意图
搜索引擎主动抓取网页,并进行内容处理 按照一定策略把网页抓回到搜索引擎服务器; 对抓回的网页进行链接抽离、内容处理,削除噪声、提取该页主题文本内容等; 对网页的文本内容进行中文分词、去除停止词等;对网页内容进行分词后判断该页面内容与已索引网页是否有重复,去除重复页,对剩余网页进行排序索引,然后等待用户的检索。
以上的是我的个人理解如有错如望各位大佬指出,希望对大家有帮助ヽ(゚∀゚)メ(゚∀゚)ノ ,对您有用就点个赞支持下(。ゝω・。)☆ |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |