1、爬虫概念

2023-10-13 11:08| 来源: 网络整理| 查看: 265

一、概念自动批量下载网络资源的程序（伪装成客户端与服务端进行数据交互的程序，客户端是与服务端对应的，网上的浏览器就属于伪装客户端）作用： 1、数据收集：用于做数据采集的爬虫，叫”聚焦爬虫“，比如某app、网页或软件面向大众收集的数据 2、搜索引擎：比聚焦爬虫收集的范围更广，比如百度，通过搜索关键字将大量页面的信息爬取下来，放到自己的服务器上，需要对页面进行存储和定位 3、模拟操作：伪装成客户端，广泛用于模拟用户操作，比如测试机器人，灌水机器人等，都是通过同一个ip地址发出的请求进行伪装客户端操作（后台封掉ip权限就会限制到爬虫的操作）爬虫开发的重难点： 1、数据的获取:避免网络资源被爬虫采集，服务端会设置非常多的图灵测试，阻止爬虫的恶意爬取爬虫的恶意爬取：用户登录与服务器进行交互一般频率低，速度慢，但爬虫速度非常快，频率非常高，爬虫数量多了之后，频率也翻倍，服务器就会得到大量的请求，并对其产生很大的压力，导致服务器崩溃，所以服务器一般会设置反爬措施。

目前的开发爬虫过程：大部分是为了解决反爬措施，同时也要控制好爬虫的速度，避免造成公共资源浪费

2、采集的速度

大数据时代，需要巨大数据量，所以采集速度也要很高，一般会采取并发及分布式来解决速度上的问题，这也是爬虫开发过程中的另一个重心二、HTTP与HTTPS（有90%的网络协议的请求是通过这两种协议进行的）请求：客户端与服务端进行的交互响应：服务端处理的结果网络架构： 1、c/s就是客户端（比如电脑版的微信、QQ音乐、网络游戏）与服务端 2、b/s就是浏览器（比如浏览器打开的音乐听歌网站）与服务端 3、m/s就是移动端（移动手机的客户端，比如手机版的微信和QQ）与服务端 HTTP协议： 1、原因：计算机之间需要交流，人类之间的交流用到的语法结构，在计算机之间叫做协议（也可以叫规则、约数、要求），保障了能互相理解对方的具体信息 2、概念及特点： HTTP是超文本（超越文本的包含各种媒体的类型，比如音乐等）传输协议的缩写（作用就是传输），用于从万维网服务器传输超文本到本地浏览器的传送协议 HTTP是基于TCP/IP通信协议（比HTTP更为底层的一种协议）来传递数据，使用TCP通信协议的重要原因是基于面向连接的特点应用层网络服务与最终用户的一个接口。协议有：HTTP FTP TFTP SMTP SNMP DNS TELNET HTTPS POP3 DHCP 表示层数据的表示、安全、压缩。（在五层模型里面已经合并到了应用层）格式有，JPEG、ASCll、EBCDIC、加密格式等 [2] 会话层建立、管理、终止会话。（在五层模型里面已经合并到了应用层）对应主机进程，指本地主机与远程主机正在进行的会话传输层定义传输数据的协议端口号，以及流控和差错校验。协议有：TCP UDP，数据包一旦离开网卡即进入网络传输层网络层

【本文地址】

1、爬虫概念

1、爬虫概念

今日新闻

推荐新闻