近朱者赤近墨者黑，通过进销挖掘相似纳税人

定静虑得 2019-05-24

展开全文

1.业务目标

一家企业的进项和销项是直接反应其经营性质最为显著的特征之一，同样性质的企业，其进销内容应该存在一定的相似。比如同样是服装企业，它们的进项大部分都是布匹、纽扣、拉链等，而销项则是衣服、箱包等。通过进项和销项的比对，可以在一定程度上反映两家企业是否相似。

所谓近朱者赤近墨者黑，如果我们已经锁定一批高风险企业，甚至是已经定性为虚开企业的黑名单。再以它们为基点，挖掘与它们相似度比较高的其它企业，不难想象，这些相似度高的企业，很有可能同样值得我们给予更加密切的关注，顺藤摸瓜的挖掘更多问题企业。

例如下图就是对黑名单企业A进行进销相似度分析、相似企业对比分析，找出嫌疑企业B、C、D…的效果示例：

进销相似度分析

相似企业对比分析

2.算法目标

在“互联网+税务”时代，可运用机器学习算法，利用纳税人进销发票数据，建立纳税人之间的相似度模型。从纳税人进销数据的角度，分析它们之间的关系。让更多潜在的风险纳税人暴露在我们的监控之下。

3.数据特征

这是一个无监督学习的算法模型，既然通过进销数据来评估相似度，那模型需要的数据自然就是纳税人的进项和销项发票数据，因为发票数据最能真实的反映一家企业的经营细节。

但是发票的内容是纯文本的信息，而且纳税人填写的发票文本信息非常复杂和多样化，以某省为例，截至到2019年4月份，全省纳税人填写的发票内容去重后还有4个多亿，无法直接使用，所以第一步就需要通过商品归集算法对发票进行分类（详见《机器学习算法在发票商品名称归集中的应用》）。

4.算法模型

关于相似度的统计指标有很多，它们各有各的优缺点，总体来说，可以分成3种不同的类别。

距离类相似度：计算两个点相对距离有多远，常用的有欧式距离，曼哈顿距离，闵科夫斯基距离等。
方向类相似度：两条线的方向是否一致，通过它们之间的夹角来衡量它们的一致性。如余弦相似度等。
相关性：衡量两个变量、两组数据之间的关联性的指标。如皮尔森相关系数，肯德尔秩相关系数，斯皮尔曼秩相关系数等。

经过多次尝试验证，最后我们选用了闵科夫斯基距离，余弦相似度这两个的综合结果，作为企业间的相似度衡量指标。

TIPS：闵科夫斯基距离

闵科夫斯基距离（Minkowski distance），指在m维空间中两个点之间的超距离，或者向量在超立体空间上的距离。

TIPS：余弦相似度

又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

如果仅仅是计算两个企业的相似度，用这两个指标就可以了。但我们的目标是找到与某个企业相似度高的若干个企业，比如Top 100。这样的话，我们需要把这家企业和其他所有企业作比较，然后挑前100个出来。如果全省所有企业都需要找Top 100的话，那我们则需要将全省700万企业纳税人两两相交（笛卡儿积），这是一个相当惊人的计算量。所以我们必须要想法优化算法，降低计算量。

TIPS：标签传播

从已标记节点的标签信息来预测未标记节点的标签信息，利用样本间的关系，建立完全图模型。在节点传播的每一步，每个节点根据相邻节点的标签来更新自己的标签。