爬虫小白

2023-07-14 16:27| 来源: 网络整理| 查看: 265

概述：

这是一个利用pycharm在phthon环境下做的一个简单爬虫分享，主要通过对豆瓣音乐top250的歌名、作者（专辑）的爬取来分析爬虫原理

什么是爬虫？

我们要学会爬虫，首先要知道什么是爬虫。

网络爬虫（又被称为网页蜘蛛，网络机器人，在 FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。中文名网络爬虫外文名 web crawler 别称网络蜘蛛目的按要求获取万维网信息

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

准备工作：

我们使用的是pycharm，关于pycharm的安装及使用可以参考https://blog.csdn.net/yanyangjie/article/details/78259561

使用工具：requests ， lxml ，xpath 关于requests的使用可以去看它的官方文档： http://docs.python-requests.org/zh_CN/latest/user/quickstart.html 个人觉得用lxml来解析网页是最快的，关于lxml的使用，可以看这个： http://yifei.me/note/464 xpath是一门在xml文档中查找信息的语言。 xpath可用来在xml文档中对元素和属性进行遍历。xpath的使用可以参考他的教程： http://www.w3school.com.cn/xpath/index.asp 话不多说，开始我们的爬虫之旅

首先找到我们的目标url：https://music.douban.com/top250?start=0

可以看到我们要获取的歌名、作者（专辑）在页面中有十页，每页十行