分享

2002-RPA与网页(增值税发票验真场景)

 Leonlyp 2018-05-06

上篇文章开启了一个新的RPA系列文章:RPA的功能漫谈。从网页操作说起,聊了聊RPA、Python和爬虫的一部分内容。

本文将继续这个话题,结合增值税发票验真的场景,说下RPA的网页操作。

 

一、源起

增值税发票验真是一项重要的财务审核工作。目前采用的主要方法是登录《国家税务总局全国增值税发票查验平台》(网址:https://inv-veri.chinatax.gov.cn/)进行查验。登录页面信息如下图所示:



发票验真需要四项发票信息:发票代码、发票号码、开票日期、校验码(或者开票金额)。以上信息在网页中输入完成后,输入正确的验证码,点击“查验”按钮,即可查询发票信息(如下图所示)。



如果是财务共享中心人员进行人工核对,那么逐一核对相关信息即可。但我们要讨论的是借助RPA完成发票验真的自动化,可能会稍微遇到一些问题:

由于查询结果不可选中,RPA软件无法直接识别上述发票信息,例如公司名称、纳税人识别号、价税合计等信息(选用了2款RPA产品进行测试)。这个问题该如何解决?

 

二、问题的分析

1、最直接(或者称为“粗暴”)的方法:借助OCR(Optical Character Recognition,光学字符识别)。

这是一个算是“万能”的办法,但是存在的待识别信息定位和OCR识别率的问题。在这个特定的场景下,绝非是最佳选择。

如果上述发票信息是一张图片,那么OCR将是我们唯一的选择。

幸运的是:这些发票信息不是以图片形式存储。

 

2、借助浏览器的“Web开发者”→“查看器”(笔者使用FireFox 25.0.2版本的浏览器),发现可以在HTML代码中找到发票的各项信息。如下图所示:




这种情况下,要相信:如果下载的网页中包含了需要的信息,那么通过调整RPA的设置,就一定可以获取到这些信息;从而避免在类似场景下使用OCR。

 

三、问题的解决

通过分析网页代码,可以发现发票的信息都有唯一ID(例如,公司名称对应的ID是:gfmc_pp)。

依据该ID,RPA能够识别到相关信息,便可完成后续的流程自动化动作。

 

最后,将问题一般化,网页操作的一般套路,总结为三步:

1、下载网页

2、网页元素定位(RPA开发需要重点关注的部分

3、网页具体操作或者数据下载

 

网页设计会涉及到三个主要技术:

1、HTML(框架)

2、CSS(样式,决定网页长得好看不好看)

3、JavaScript(动作,决定网页可以支持哪些动态操作)

 

上例中发票验真的网页相对比较简单,不涉及多个网址之间的切换。如果涉及到多个网址的切换,则需要关注当前激活(Active)的网页是否是预期待操作的网页(通过句柄handle判断或者网页名称判断)以及网页内容是否完成加载。

 

本文作者:任子旭 Zack Ren

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多