【Amazon】商品评论采集

您所在的位置:网站首页 采集器如何使用教程图片 【Amazon】商品评论采集

【Amazon】商品评论采集

2024-01-07 09:01| 来源: 网络整理| 查看: 265

采集场景

采集Amazon商品评价数据,实例网址:https://www.amazon.com/product-reviews/B07211W6X2/ 。

 

采集字段

评论标题、评论星级、评论时间、评论内容、有用数、ASIN等字段。

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

教程说明

本篇更新时间:2023/11/24   八爪鱼版本:V8.6.7

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一:使用【智能识别】建立循环列表和翻页循环

步骤二、调整通过【智能识别】生成的规则

步骤三、优化规则

步骤四、启动采集

 

示例网址:

https://www.amazon.com/product-reviews/B07211W6X2/ 

https://www.amazon.com/product-reviews/B07S1YPSGT/

 

步骤一、使用【智能识别】建立循环列表和翻页循环

 

1、在首页点击左上角  按钮,选择【自定义任务】,输入示例网址,然后点【保存设置】,八爪鱼自动打开网页。

点击【自动识别网页】,成功识别了文章列表中的数据和翻页。

点击【生成采集设置】,将自动识别出的列表数据和翻页,生成为采集流程,方便我们使用和修改。

  

特别说明:

a. 本文使用【自动识别】,自动识别网页上的列表、滚动和翻页。识别成功后会生成采集规则,再对采集规则调整,以采集目标数据。如果【自动识别】的结果与以上图片不同,可点击【取消识别】自行配置采集流程或联系客服反馈。详情点击查看 【自动识别】教程

b. 示例中输入的是2个Amazon商品评论的网址,大家可以根据需要,更换成自己需要的。Amazon商品详情页和评论页面的网址都由 主域名/参数/ASIN编码 拼接而成,适用于Amazon各个国家的站点。

评论页的网址参数固定为:product-reviews,商品ASIN编码为 B07211W6X2 ,则评论页的网址是:https://www.amazon.com/product-reviews/B07211W6X2/ 。

详情页的网址参数固定为:dp,商品ASIN编码为 B07211W6X2,则详情页的网址是:https://www.amazon.com/dp/B07211W6X2/ 。

因此,只要有目标Amazon商品的ASIN编码,就可批量生成评论页网址,提取全部评论数据。

如何获得商品的ASIN编码?通过 Amazon商品列表页数据采集 可获得大批ASIN编码。

c. 如果一打开网页后就出现验证码,无法正常配置规则,可点击【浏览模式】手动输入验证码进行验证。

 

 

步骤二、调整通过【智能识别】生成的规则

 

【智能识别】很好的辅助我们建立了采集规则,我们可以对规则进行调整和优化。

 

1、删除不需要字段

在【数据预览】中,删除不需要的字段。

 

2、对字段进行重命名

在【数据预览】中,编辑字段名称。

 

3、添加特殊字段:采集时间、当前页面网址

有一些字段,八爪鱼无法自动提取到,需要我们手动添加。

在【数据预览】中,点击右上角的【+】,添加【当前时间】和【页面网址】字段。

 

4、提取ASIN编码

每个商品具有唯一的ASIN编码,将其提取下来,以标识评论属于哪个商品。如有无需ASIN编码,可跳过此步骤。

ASIN编码在当前商品评论网址中,对采集到的当前商品评论网址进行格式化处理,得到ASIN编码。

在【数据预览】中,点击【页面网址】字段后的【...】→【格式化数据】→【添加步骤】→【正则表达式匹配】,输入正则表达式 (?



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3