豆瓣读书书籍信息采集方法

您所在的位置：网站首页 › 八爪鱼采集器用法 › 豆瓣读书书籍信息采集方法

豆瓣读书书籍信息采集方法

2024-06-07 15:07| 来源: 网络整理| 查看: 265

教程首页实战教程自媒体豆瓣豆瓣读书书籍信息采集方法豆瓣读书书籍信息采集方法

2017-11-13 18:18:38 阅读量： 20309

本文介绍使用八爪鱼采集器v7采集豆瓣读书详细信息。

采集网站：

https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T

使用功能点：

l 分页列表及详细信息提取

/tutorial/fylbxq7.aspx?t=1

l Xpath

/tutorialdetail-1/xpath1.html

豆瓣读书：豆瓣读书为豆瓣网的一个子栏目。豆瓣读书自2005年上线，已成为国内信息最全、用户数量最大且最为活跃的读书网站。我们专注于为用户提供全面且精细化的读书服务，同时不断探索新的产品模式。到2012年豆瓣读书每个月有超过800万的来访用户，过亿的访问次数。。

豆瓣读书采集数据说明：本文进行了豆瓣读书-书籍详细信息的采集，本文首先进去豆瓣读书分类列表页，然后循环点击每一条图书信息，进入图书详情页采集具体详细信息。本文仅以“豆瓣读书采集”为例。大家在实操过程中，可根据自身需求，更换豆瓣的其他内容进行数据采集。

豆瓣读书采集字段详细说明：图书名称，图书作者，图书定价，图书价格，图书出版年，图书作者简介。

步骤1：创建采集任务

1）进入主界面，选择“自定义模式”

2）将要采集的网址URL，复制粘贴到网址输入框中，点击“保存网址”

步骤2：创建翻页循环

1）在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。将页面下拉到底部，点击“后页>”按钮，在右侧的操作提示框中，选择“更多操作”

2）选择“循环点击单个链接”

步骤3：创建列表循环

1）移动鼠标，选中页面里的第一个图书链接。选中后，系统会自动识别页面里的其他相似链接。在右侧操作提示框中，选择“选中全部”

2）选择“循环点击每个链接”，以创建一个列表循环

步骤4：提取图书信息

1）在创建列表循环后，系统会自动点击第一个图书链接，进入图书详细信息页。

点击需要的字段信息，在右侧的操作提示框中，选择“采集该元素的文本”。我们在这里，采集了图书名称、图书出版信息、内容简介、作者简介

2）字段信息选择完成后，选中相应的字段，可以进行字段的自定义命名，修改完成后，点击“确定”。完成后，点击左上角的“保存并启动”，启动采集任务

3）选择“启动本地采集”

4）采集完成后，会跳出提示，选择“导出数据”。选择“合适的导出方式”，将采集好的数据导出。这里我们选择excel作为导出为格式，数据导出后如下图

步骤5：修改Xpath

通过上述导出的数据我们可以发现，部分图书的“内容简介”、“作者简介”没有采集下来（如：《解忧杂货店》图书详情页的“内容简介”采集下来了，但是《雪落香杉树》图书详情页的“内容简介”并未采集下来）。这是因为，每个图书详情页的网页情况有所不同，系统自动生成的Xpath，不能完全正确定位到每个图书详情页的“内容简介”和“作者简介”。以下将以“内容简介”这个字段为例，具体讲解xpath的修改。“作者简介”字段修改同理，在此文中不做多讲。

1）选中“提取元素”步骤，点击“内容简介”字段，再点击如图所示的按钮

2）选择“自定义定位元素方式”

3）将八爪鱼系统自动生成的这条Xpath：

//DIV[@id='link-report']/DIV[1]/DIV[1]/P[1]，复制粘贴到火狐浏览器中进行检测

4）将八爪鱼系统自动生成的此条Xpath，删减为

//DIV[@id='link-report']/DIV[1]/DIV[1]（P[1]代表内容简介里的第一段，删掉即可定位到整个内容简介段落）。我们发现：通过此条Xpath：

//DIV[@id='link-report']/DIV[1]/DIV[1]，在《解忧杂货店》图书详情页，可以定位到“内容简介”字段，但是在《雪落香杉树》图书详情页，不能定位到“内容简介”字段

《解忧杂货店》图书详情页：可定位到“内容简介”字段

《雪落香杉树》图书详情页：不能定位到“内容简介”字段

5）观察网页源码发现，图书详情页“内容简介”字段，都具有相同的class属性，通过class属性，我们可写出一条能够定位所有图书详情页“内容简介”字段的Xpath：.//*[@id='link-report']//div[@class='intro']。在火狐浏览器中检查发现，通过此条Xpath，确实能都定位到所有图书详情页的“内容简介”字段

6）将新写的此条Xpath：.//*[@id='link-report']//div[@class='intro']，复制粘贴到八爪鱼中的相应位置，并点击“确定”

7）重新“启动本地采集”并导出数据。可以看到，所有图书详情页的“内容简介”字段均被抓取下来

注意：“作者简介”字段修改同理，需要修改Xpath，在此文中不做多讲。

上一篇：【简易采集】豆瓣电影爬虫规则使... 下一篇：豆瓣图片采集以及下载保存的方法

【本文地址】

豆瓣读书书籍信息采集方法

豆瓣读书书籍信息采集方法

今日新闻

推荐新闻