1、爬虫概念

您所在的位置:网站首页 spider读音 1、爬虫概念

1、爬虫概念

2023-10-13 11:08| 来源: 网络整理| 查看: 265

一、概念 自动批量下载网络资源的程序(伪装成客户端与服务端进行数据交互的程序,客户端是与服务端对应的,网上的浏览器就属于伪装客户端) 作用: 1、数据收集:用于做数据采集的爬虫,叫”聚焦爬虫“,比如某app、网页或软件面向大众收集的数据 2、搜索引擎:比聚焦爬虫收集的范围更广,比如百度,通过搜索关键字将大量页面的信息爬取下来,放到自己的服务器上,需要对页面进行存储和定位 3、模拟操作:伪装成客户端,广泛用于模拟用户操作,比如测试机器人,灌水机器人等,都是通过同一个ip地址发出的请求进行伪装客户端操作(后台封掉ip权限就会限制到爬虫的操作) 爬虫开发的重难点: 1、数据的获取:避免网络资源被爬虫采集,服务端会设置非常多的图灵测试,阻止爬虫的恶意爬取 爬虫的恶意爬取:用户登录与服务器进行交互一般频率低,速度慢,但爬虫速度非常快,频率非常高,爬虫数量多了之后,频率也翻倍,服务器就会得到大量的请求, 并对其产生很大的压力,导致服务器崩溃,所以服务器一般会设置反爬措施。

目前的开发爬虫过程:大部分是为了解决反爬措施,同时也要控制好爬虫的速度,避免造成公共资源浪费

2、采集的速度

大数据时代,需要巨大数据量,所以采集速度也要很高,一般会采取并发及分布式来解决速度上的问题,这也是爬虫开发过程中的另一个重心 二、HTTP与HTTPS(有90%的网络协议的请求是通过这两种协议进行的) 请求:客户端与服务端进行的交互 响应:服务端处理的结果 网络架构: 1、c/s就是客户端(比如电脑版的微信、QQ音乐、网络游戏)与服务端 2、b/s就是浏览器(比如浏览器打开的音乐听歌网站)与服务端 3、m/s就是移动端(移动手机的客户端,比如手机版的微信和QQ)与服务端 HTTP协议: 1、原因:计算机之间需要交流,人类之间的交流用到的语法结构,在计算机之间叫做协议(也可以叫规则、约数、要求),保障了能互相理解对方的具体信息 2、概念及特点: HTTP是超文本(超越文本的包含各种媒体的类型,比如音乐等)传输协议的缩写(作用就是传输),用于从万维网服务器传输超文本到本地浏览器的传送协议 HTTP是基于TCP/IP通信协议(比HTTP更为底层的一种协议)来传递数据,使用TCP通信协议的重要原因是基于面向连接的特点 应用层 网络服务与最终用户的一个接口。 协议有:HTTP FTP TFTP SMTP SNMP DNS TELNET HTTPS POP3 DHCP 表示层 数据的表示、安全、压缩。(在五层模型里面已经合并到了应用层) 格式有,JPEG、ASCll、EBCDIC、加密格式等 [2] 会话层 建立、管理、终止会话。(在五层模型里面已经合并到了应用层) 对应主机进程,指本地主机与远程主机正在进行的会话 传输层 定义传输数据的协议端口号,以及流控和差错校验。 协议有:TCP UDP,数据包一旦离开网卡即进入网络传输层 网络层



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3