分享

近朱者赤近墨者黑,通过进销挖掘相似纳税人

 定静虑得 2019-05-24

1.业务目标

一家企业的进项和销项是直接反应其经营性质最为显著的特征之一,同样性质的企业,其进销内容应该存在一定的相似。比如同样是服装企业,它们的进项大部分都是布匹、纽扣、拉链等,而销项则是衣服、箱包等。通过进项和销项的比对,可以在一定程度上反映两家企业是否相似。

所谓近朱者赤近墨者黑,如果我们已经锁定一批高风险企业,甚至是已经定性为虚开企业的黑名单。再以它们为基点,挖掘与它们相似度比较高的其它企业,不难想象,这些相似度高的企业,很有可能同样值得我们给予更加密切的关注,顺藤摸瓜的挖掘更多问题企业。

例如下图就是对黑名单企业A进行进销相似度分析、相似企业对比分析,找出嫌疑企业B、C、D…的效果示例:

进销相似度分析

相似企业对比分析

2.算法目标

在“互联网+税务”时代,可运用机器学习算法,利用纳税人进销发票数据,建立纳税人之间的相似度模型。从纳税人进销数据的角度,分析它们之间的关系。让更多潜在的风险纳税人暴露在我们的监控之下。

3.数据特征

这是一个无监督学习的算法模型,既然通过进销数据来评估相似度,那模型需要的数据自然就是纳税人的进项和销项发票数据,因为发票数据最能真实的反映一家企业的经营细节。

但是发票的内容是纯文本的信息,而且纳税人填写的发票文本信息非常复杂和多样化,以某省为例,截至到2019年4月份,全省纳税人填写的发票内容去重后还有4个多亿,无法直接使用,所以第一步就需要通过商品归集算法对发票进行分类(详见《机器学习算法在发票商品名称归集中的应用》)。

4.算法模型

关于相似度的统计指标有很多,它们各有各的优缺点,总体来说,可以分成3种不同的类别。

  • 距离类相似度:计算两个点相对距离有多远,常用的有欧式距离,曼哈顿距离,闵科夫斯基距离等。

  • 方向类相似度:两条线的方向是否一致,通过它们之间的夹角来衡量它们的一致性。如余弦相似度等。

  • 相关性:衡量两个变量、两组数据之间的关联性的指标。如皮尔森相关系数,肯德尔秩相关系数,斯皮尔曼秩相关系数等。

经过多次尝试验证,最后我们选用了闵科夫斯基距离,余弦相似度这两个的综合结果,作为企业间的相似度衡量指标。

TIPS闵科夫斯基距离

闵科夫斯基距离(Minkowski distance),指在m维空间中两个点之间的超距离,或者向量在超立体空间上的距离。

TIPS:余弦相似度

又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。

如果仅仅是计算两个企业的相似度,用这两个指标就可以了。但我们的目标是找到与某个企业相似度高的若干个企业,比如Top 100。这样的话,我们需要把这家企业和其他所有企业作比较,然后挑前100个出来。如果全省所有企业都需要找Top 100的话,那我们则需要将全省700万企业纳税人两两相交(笛卡儿积),这是一个相当惊人的计算量。所以我们必须要想法优化算法,降低计算量。

TIPS:标签传播

从已标记节点的标签信息来预测未标记节点的标签信息,利用样本间的关系,建立完全图模型。在节点传播的每一步,每个节点根据相邻节点的标签来更新自己的标签。

标签传播是半监督学习算法模型,对于我们的无监督模型不能完全适用,所以我们必须要经过一定的修正调整,将其变成适合我们的实际情况。

5.结果验证

经过多次迭代调试,随着模型的调整优化,最终结果确实能挖掘出进销非常类似的企业,如下表,相似系数大于0.7的企业之间,它们的进项和销项都是比较类似的货物,而且它们的金额也在同一个数量级别,不同货物之间的金额比例也大致接近。

6.算法价值

目前该算法及配套的软件功能进行产品化封装,可以基于阿里云大数据、Hadoop大数据平台环境进行快速部署与发布。在税务数据分析的工作中,可以根据纳税人之间的相似系数,挖掘经营雷同的企业,以点带面,扩展分析范围,挖掘更多有价值的信息。

华云慧通研发算法体系
  • 基础算法

    • 字符串预处理

    • 分词与词性标注

    • 文本语法分析

    • 文本语义分析

    • 相似度量分析

    • ...

  • 归集类算法

    • 商品名称归集

    • 纳税人归集

    • 自然人归集

    • 纳税人名称字号提取

    • 相同地址关系归集

    • ...

  • 业务类算法

    • 空壳企业识别

    • 疑似虚开发票预测

    • 行业智能识别

    • 走逃户预测识别

    • 进销相似纳税人识别

    • 行业进销图谱识别

    • 发票领用智能核定

    • ...

关注我们

北京华云慧通科技有限公司是领先的专注于云计算、大数据的新型高科技公司,以咨询规划、业务上云、数据采集、数据治理、数据智能五大核心能力,致力于为政务、行业、企业提供云计算、大数据、应用上云、数据上云、智能应用等整体解决方案。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多