RPA使用案例 |
您所在的位置:网站首页 › 如何提取网页的表格到word › RPA使用案例 |
RPA使用案例(一)-----网页信息获取
前言:机器人流程自动化RPA,易于部署及其为企业带来的速度和敏捷性提升是其特性之一,因其可以将办公室工作自动化,提高生产效率。最近也在接手rpa项目,所以今天分享一个实用的rpa案例 一.使用rpa机器人获取网页信息的原因最初一开始获取网页信息的办法就是爬虫,但是爬虫门槛较高,需要较高的代码能力和掌握爬虫原理,这就很鸡肋,虽然网上有很多开源爬虫,但是要将其修改成我们的目标爬虫也是很艰难,而rpa的出现避免了这些问题。 二.实用案例最近接手了一个获取企查查网页信息的项目,现在就一步一步的分享用rpa的解决方案 1.根据需求确定流程框架需求要求根据给出的excel表里的公司名称去企查查上查找对应企业的地址、法人、股东信息。 根据需求描述,大致框架就是:获取excel表里企业名称——在企查查查找该企业——判断是否存在所需要信息——获取信息——存入excel表——遍历excel表 2.表格格式打开excel表后,可以看到第一行就四个index,需要填入信息的就是法人、地址、股东 因为需求要求股东信息要单独重新创建一个excel,所以分成两个流程进行: 1.法人、地址信息获取先把整体流程看一下 流程就是开始——确定一些变量——获取待查企业名称——判断是否已经完成ecxel表里所有数据——打开浏览器查找企业并获取待获取信息——存入excel——遍历 组件解释确定初始位置:因为不能从index开始执行,第二行开始才是要处理的开始,所以创建一个变量j并赋值2。 公司名称列:确定公司名称index所在列,方便后面定位,创建变量i赋值1,变量类型为int32。。 地址列:确定地址index所在列,方便后面定位,创建变量c赋值1,变量类型为int32。 法人列:确定法人index所在列,方便后面定位,创建变量b赋值1,变量类型为int32。 提取公司名称:用上面定义的变量j和i来定位单元格,并获取单元格内容复制给变量inf 流程决策:判断inf变量是否为空,变量为空则说明excel表已经处理完毕,保存关闭excel表结束流程,若不为空继续流程。 企查查:打开浏览器并进行一系列浏览器操作 然后 遍历循坏条件:公司名称往下一行,实现遍历。 变量话不多说,上流程 大同小异的流程,展示一下不同的地方吧 上一个流程这里是获取文本,这里变成了一个数据抓取,数据抓取的话,就是把一个网页里同类型的数据抓取下来保存进一个datatable变量里,有人会问上一个流程为什么不使用数据抓取,ok,解释一下,法人和地址的话对于同一个公司的话是唯一的,而股东可以是一个也可以十多个,而使用数据抓取的话,同一网页界面必须得有相同的两个元素存在,所以后者使用了数据抓取,而在数据存入方面,基本都是一样,前者一个单元格里存入一个文本数据,而后者是将一个datatable存入一个单元格,循环、判断、遍历都是一样的。 三.成果展示平均爬取一个公司的信息的时间为20s左右(当然也有电脑性能、网速的原因),虽然速度比不上爬虫快速,但rpa胜在逻辑清晰,编写简单上,现在看一下成果吧。 能、网速的原因),虽然速度比不上爬虫快速,但rpa胜在逻辑清晰,编写简单上,现在看一下成果吧。 那就这样愉快的结束了这一次分享咯。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |