设为首页收藏本站

开启辅助访问

基于python的网络爬虫设计

您所在的位置：网站首页 › python爬虫编程 › 基于python的网络爬虫设计

基于python的网络爬虫设计

#基于python的网络爬虫设计| 来源: 网络整理| 查看: 265

数据

1

前言

1.1

本编程设计的目的和意义

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息

成为一个巨大的挑战。

搜索引擎

（例如传统的通用搜索引擎

AltaVista

，

Yahoo!

和

Google

等）

作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

但是，

这些通用性搜

索引擎也存在着一定的局限性，如：

(1)

不同领域、不同背景的用户往往具有不同的检索

目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)

通用搜索引擎

的目标是尽可能大的网络覆盖率，

有限的搜索引擎服务器资源与无限的网络数据资源之间的

矛盾将进一步加深。

(3)

万维网数据形式的丰富和网络技术的不断发展，图片、数据库、

音频

/

视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定

结构的数据无能为力，不能很好地发现和获取。

(4)

通用搜索引擎大多提供基于关键字的

检索，难以支持根据语义信息提出的查询。

为了解决上述问题，定向抓取相关网页资源的

聚焦爬虫应运而生。

聚焦爬虫是一个自动下载网页的程序，

它根据既定的抓取目标，

有选择

的访问万维网上的网页与相关的链接，

获取所需要的信息。

与通用爬虫

(generalpurpose

web

crawler)

不同，

聚焦爬虫并不追求大的覆盖，

而将目标定为抓取与某一特定主题内容相关的

网页，为面向主题的用户查询准备数据资源。

1.2

编程设计目及思路

1.2.1

编程设计目的

学习了解并熟练掌握

python

的语法规则和基本使用，

对网络爬虫的基础知识

进行了一定程度的理解，

提高对网页源代码的认知水平，

学习用正则表达式来完

成匹配查找的工作，了解数据库的用途，学习

mongodb

数据库的安装和使用，及

配合

python

的工作。

1.2.2

设计思路

【本文地址】

CopyRight 2018-2019 办公设备维修网版权所有豫ICP备15022753号-3