数据采集工具:八爪鱼 |
您所在的位置:网站首页 › 八爪鱼长啥样的 › 数据采集工具:八爪鱼 |
数据采集工具:八爪鱼
目录 一.八爪鱼介绍 二.安装八爪鱼 三.采集原理 四.快速入门 五.登陆 六.基本排错 七.提取、导出数据
一.八爪鱼介绍 八爪鱼是一款通用的网页数据采集器,能够采集98%的网页。 可简单快速地将网页数据转化为结构化数据,存储为EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案。 八爪鱼作为一款通用的网页数据采集器,并不针对于某一网站某一行业的数据进行采集,而是网页上所能看到或网页源码中有的文本信息,几乎都能采集。官网:https://www.bazhuayu.com/ 二.安装八爪鱼 1.进入官网注册,因为下载使用要登录才能使用各项功能。 2.请双击OctopusSetup.exe开始安装。 3.安装完成后在开始菜单或者桌面均可以找到八爪鱼采集器快捷方式。 4.启动八爪鱼采集器并登陆。
安装提示: 本软件需要.NET3.5 SP1支持,Win 7已经内置支持,XP系统需要安装,部分Win10系统可能也需要安装。 软件会在安装时自动检测是否安装了.NET 3.5 SP1,如果没有安装则会自动从微软官方在线安装, 国内在线安装速度很慢,建议先从:http://pan.baidu.com/s/1nu5VbTJ 下载安装.NET 3.5 SP1,然后再安装八爪鱼采集器。
三.采集原理 八爪鱼采集器的核心原理是:基于Firefox内核浏览器,通过模拟人浏览网页的行为(如打开网页,点击网页中的某个按钮等操作),对网页内容进行全自动提取。 内置火狐内核浏览器,模拟人浏览网页、复制数据的行为, 通过设计工作流程,自动化采集数据。 四.快速入门 在八爪鱼客户端中,采集和导出数据主要经过以下3个步骤:1、选择采集模式2、配置任务3、配置完成后,选择采集方式,本地采集或云采集4、采集完成,导出数据 选择采集模式 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() 配置任务 流程步骤:在八爪鱼采集器中,一共有11个流程设计操作 其中分为常用步骤和进阶步骤 常用步骤:1)打开网页 2)循环翻页 3)循环列表 4)点击元素 5)提取元素 进阶步骤:1)输入文字 2)识别验证码 3)切换下拉选项 4)判断条件 5)移动鼠标到元素上 6)结束循环 7)结束流程 选择采集方式 本地采集(单机采集),即使用自己的电脑进行采集。 可以实现绝大多数网页数据的爬取,可以在采集过程中对数据进行初步的清洗。如使用八爪鱼自带的正则工具,利用正则表达式将数据格式化,可在数据源头实现去除空格、筛选日期等多种操作。 其次八爪鱼还提供分支判断功能,可对网页中信息进行是与否的逻辑判断,实现用户筛选需求。 云采集,是使用八爪鱼提供的云服务集群进行数据采集,不占用本地电脑资源。当规则配置好之后,启动云采集,可关掉自己的电脑,实现无人值守。 功能:定时采集,实时监控,数据自动去重并入库,增量采集,自动识别验证码,API接口多元化导出数据。 速度:利用云端多节点并发运行,采集速度将远超于本地采集(单机采集)。 防封:具有多节点,多IP,可避免网站的IP封锁,实现采集数据的最大化。 入门练习 单网页数据采集 ►单网页 示例网址:http://www.skieer.com/guide/demo/simplemovies2.html ►单网页列表 示例网址:http://www.skieer.com/guide/demo/genremovies2.html ►单网页列表详情 示例网址:http://www.skieer.com/guide/demo/navmovies2.html 分页数据采集 ►分页列表 示例网址:http://www.skieer.com/guide/demo/genremoviespage1.html ►分页列表详情 示例网址:http://www.skieer.com/guide/demo/moviespage1.html 分页列表数据采集
1.点击自定义采集
2.输入网址:https://www.bazhuayu.com/tutorial/hottutorial
3.构建分页,点击分页的下一页,循环点击单个链接
4.构建列表,连续点击两个标题,然后点击循环点击每个元素
4.设置采集数据字段,点击标题,时间和阅读量,获取标签内容
5.查看流程
6.最后点击开始采集,选择本地采集,导出数据 注意事项 ![]() ![]() 五大循环方式 URL循环 文本循环 单个元素循环 固定元素列表循环 不固定元素列表循环
URL循环 ![]() ![]() 文本循环 ![]() ![]() 单个元素循环 ![]() ![]() 固定元素列表循环 ![]() ![]() 不固定元素列表循环 ![]() ![]()
五.登陆 文本输入及点击登录 cookie登录 ★登录注意事项:iframe框架
文本输入及点击登陆 在八爪鱼中,做一个输入用户名、密码的登录流程,先在登录网址中输入用户名、密码登陆进去,然后打开要采集数据的网址进行数据采集。 登录网址:https://login.tmall.com/ 要采集数据的网址:https://list.tmall.com/search_product.htm?q=%C1%AC%D2%C2%C8%B9&click_id=%C1%AC%D2%C2%C8%B9&from=mallfp..pc_1.1_hq&spm=875.7931836%2FB.a1z5h.2.vxUxbA
cookie登录 cookie登录是指:通过记录cookie,登录网站以进行数据采集。 cookie是:某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。经过方法一后,一个输入账号密码,登录进网站的登录流程已经做好,产生了登录cookie。八爪鱼中内置了记录cookie的功能,可通过获取登陆后的cookie来记住登陆状态,以达到采集数据的目的使用cookie登录有一点需要注意:cookie是有生命周期的,这个周期多长时间取决于采集的网站,如果cookie到期了,就需要再重新获取一次登陆之后的cookie。另外。 如果需要切换账号,可以勾选打开浏览器前清理缓存,然后再取消cookie,重新设置其他账号即可。 登录-iframe框架 Iframe框架是什么 有些网站的登录框其实是iframe的登录框。 iframe即html标签,会创建包含另外一个文档的内联框架(即行内框架),含义是网页中的网页。 如何查看网页使用了Iframe框架 借助火狐浏览器来查看。 1、将网页在火狐浏览器中打开 2、将鼠标移至天猫登录框,右键右击后选择“此框架”>>“在新标签页中打开框架” 具体请查看教程:http://www.bazhuayu.com/tutorial/cookdenglu
验证码登录 验证码登陆-设置执行前等待方法 验证码登陆-控件识别方法 验证码登陆-cookie登录方法
验证码登录-设置执行前等待 ![]() ![]() 验证码登录-控件识别 ![]() ![]() 验证码登录-cookie登录 ![]() ![]()
|
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |