1.业务目标 一家企业的进项和销项是直接反应其经营性质最为显著的特征之一,同样性质的企业,其进销内容应该存在一定的相似。比如同样是服装企业,它们的进项大部分都是布匹、纽扣、拉链等,而销项则是衣服、箱包等。通过进项和销项的比对,可以在一定程度上反映两家企业是否相似。 所谓近朱者赤近墨者黑,如果我们已经锁定一批高风险企业,甚至是已经定性为虚开企业的黑名单。再以它们为基点,挖掘与它们相似度比较高的其它企业,不难想象,这些相似度高的企业,很有可能同样值得我们给予更加密切的关注,顺藤摸瓜的挖掘更多问题企业。 例如下图就是对黑名单企业A进行进销相似度分析、相似企业对比分析,找出嫌疑企业B、C、D…的效果示例: 进销相似度分析 相似企业对比分析 2.算法目标 在“互联网+税务”时代,可运用机器学习算法,利用纳税人进销发票数据,建立纳税人之间的相似度模型。从纳税人进销数据的角度,分析它们之间的关系。让更多潜在的风险纳税人暴露在我们的监控之下。 3.数据特征 这是一个无监督学习的算法模型,既然通过进销数据来评估相似度,那模型需要的数据自然就是纳税人的进项和销项发票数据,因为发票数据最能真实的反映一家企业的经营细节。 但是发票的内容是纯文本的信息,而且纳税人填写的发票文本信息非常复杂和多样化,以某省为例,截至到2019年4月份,全省纳税人填写的发票内容去重后还有4个多亿,无法直接使用,所以第一步就需要通过商品归集算法对发票进行分类(详见《机器学习算法在发票商品名称归集中的应用》)。 4.算法模型 关于相似度的统计指标有很多,它们各有各的优缺点,总体来说,可以分成3种不同的类别。
经过多次尝试验证,最后我们选用了闵科夫斯基距离,余弦相似度这两个的综合结果,作为企业间的相似度衡量指标。 TIPS:闵科夫斯基距离 闵科夫斯基距离(Minkowski distance),指在m维空间中两个点之间的超距离,或者向量在超立体空间上的距离。 TIPS:余弦相似度 又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。 如果仅仅是计算两个企业的相似度,用这两个指标就可以了。但我们的目标是找到与某个企业相似度高的若干个企业,比如Top 100。这样的话,我们需要把这家企业和其他所有企业作比较,然后挑前100个出来。如果全省所有企业都需要找Top 100的话,那我们则需要将全省700万企业纳税人两两相交(笛卡儿积),这是一个相当惊人的计算量。所以我们必须要想法优化算法,降低计算量。 TIPS:标签传播 从已标记节点的标签信息来预测未标记节点的标签信息,利用样本间的关系,建立完全图模型。在节点传播的每一步,每个节点根据相邻节点的标签来更新自己的标签。 标签传播是半监督学习算法模型,对于我们的无监督模型不能完全适用,所以我们必须要经过一定的修正调整,将其变成适合我们的实际情况。 5.结果验证 经过多次迭代调试,随着模型的调整优化,最终结果确实能挖掘出进销非常类似的企业,如下表,相似系数大于0.7的企业之间,它们的进项和销项都是比较类似的货物,而且它们的金额也在同一个数量级别,不同货物之间的金额比例也大致接近。 6.算法价值 目前该算法及配套的软件功能进行产品化封装,可以基于阿里云大数据、Hadoop大数据平台环境进行快速部署与发布。在税务数据分析的工作中,可以根据纳税人之间的相似系数,挖掘经营雷同的企业,以点带面,扩展分析范围,挖掘更多有价值的信息。
北京华云慧通科技有限公司是领先的专注于云计算、大数据的新型高科技公司,以咨询规划、业务上云、数据采集、数据治理、数据智能五大核心能力,致力于为政务、行业、企业提供云计算、大数据、应用上云、数据上云、智能应用等整体解决方案。 |
|