2002-RPA与网页（增值税发票验真场景）

Leonlyp 2018-05-06

展开全文

上篇文章开启了一个新的RPA系列文章：RPA的功能漫谈。从网页操作说起，聊了聊RPA、Python和爬虫的一部分内容。

本文将继续这个话题，结合增值税发票验真的场景，说下RPA的网页操作。

一、源起

增值税发票验真是一项重要的财务审核工作。目前采用的主要方法是登录《国家税务总局全国增值税发票查验平台》（网址：https://inv-veri.chinatax.gov.cn/）进行查验。登录页面信息如下图所示：

发票验真需要四项发票信息：发票代码、发票号码、开票日期、校验码（或者开票金额）。以上信息在网页中输入完成后，输入正确的验证码，点击“查验”按钮，即可查询发票信息（如下图所示）。

如果是财务共享中心人员进行人工核对，那么逐一核对相关信息即可。但我们要讨论的是借助RPA完成发票验真的自动化，可能会稍微遇到一些问题：

由于查询结果不可选中，RPA软件无法直接识别上述发票信息，例如公司名称、纳税人识别号、价税合计等信息（选用了2款RPA产品进行测试）。这个问题该如何解决？

二、问题的分析

1、最直接（或者称为“粗暴”）的方法：借助OCR（Optical Character Recognition，光学字符识别）。

这是一个算是“万能”的办法，但是存在的待识别信息定位和OCR识别率的问题。在这个特定的场景下，绝非是最佳选择。

如果上述发票信息是一张图片，那么OCR将是我们唯一的选择。

幸运的是：这些发票信息不是以图片形式存储。

2、借助浏览器的“Web开发者”→“查看器”（笔者使用FireFox 25.0.2版本的浏览器），发现可以在HTML代码中找到发票的各项信息。如下图所示：

这种情况下，要相信：如果下载的网页中包含了需要的信息，那么通过调整RPA的设置，就一定可以获取到这些信息；从而避免在类似场景下使用OCR。

三、问题的解决

通过分析网页代码，可以发现发票的信息都有唯一ID（例如，公司名称对应的ID是：gfmc_pp）。

依据该ID，RPA能够识别到相关信息，便可完成后续的流程自动化动作。

最后，将问题一般化，网页操作的一般套路，总结为三步：

1、下载网页

2、网页元素定位（RPA开发需要重点关注的部分）

3、网页具体操作或者数据下载

网页设计会涉及到三个主要技术：

1、HTML（框架）

2、CSS（样式，决定网页长得好看不好看）

3、JavaScript（动作，决定网页可以支持哪些动态操作）

上例中发票验真的网页相对比较简单，不涉及多个网址之间的切换。如果涉及到多个网址的切换，则需要关注当前激活（Active）的网页是否是预期待操作的网页（通过句柄handle判断或者网页名称判断）以及网页内容是否完成加载。

本文作者：任子旭 Zack Ren

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： Leonlyp > 《RPA》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

Leonlyp

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换