分享

想要以数据挖掘为专业,那么必须得知道什么是关联分析

 吴敬锐 2019-12-03

很多人经常在相关分析和关联分析之间犯迷糊,实际上两者之间的差别很明显,相关分析是分析数据列之间同增同减的关系,而关联分析反映的是一个数据行内部的各个元素之间同时出现或者“你在、我就在”的关系。要讲关联分析,就不得不提到数据分析中“因果关系”的弱化这一趋势。

因果关系的弱化

在数据分析领域,我们都自觉不自觉地在追求和挖掘数据之间的“因果关系”,销售投入的增长是否会引起销售回款的增长,人口的流入是否一定会带来房价的上涨。随着数据分析技术的不断改进以及分析经验的不断积累,人们开始认识到,事物之间未必完全是“有因必有果、有果必有因”的关系,很多事件之间呈现一种比较松散的、逻辑性并非很强的“关联”关系,这种关联关系在数据挖掘而非传统统计的案例中经常出现。

要分析数据之间的“关联”关系,我们要应用apriori算法,目前各种主流的数据分析和挖掘软件,都采用了这个算法。

关联分析的指标

在数据中间挖掘“同时存在”或者“你在、我就在”的技术,就是关联分析。下面看几个重要的关联分析算法的基本概念。

支持度

支持度就是数据中的相应的元素同时出现的概率,置信度就是统计中的条件概率,不过条件概率到了关联分析中有了“前项”和“后项”这两个概念,例如A出现以后B出现的概率,称A为前项,B为后项,那么A到B的置信度就是:

想要以数据挖掘为专业,那么必须得知道什么是关联分析

反过来,B到A的置信度为:

想要以数据挖掘为专业,那么必须得知道什么是关联分析

提升度

提升度的定义,以X表示前项,Y表示后项,X到Y的提升度就是:

想要以数据挖掘为专业,那么必须得知道什么是关联分析

仅计算支持度和置信度是不够的,还要看支持度指标,其规则如下:

想要以数据挖掘为专业,那么必须得知道什么是关联分析

什么样的数据适合做关联分析

商超数据

商场和超市数据是关联分析最先被应用的地方,自然也是关联规则应用的主要场所。商超数据做关联分析的主要目的就是用来做捆绑销售,这种捆绑销售主要体现在两个方面:

❑ 实体店中的捆绑:将相应产品的货架摆放在一起或者放在比较相近的位置。

❑ 网店中的搭售:根据客户消费中的关联性,进行相关礼包的组合或者销售的推荐。

金融数据

金融领域也是关联分析应用的重要场合,两个比较典型的应用是金融欺诈和关键指标分析

在金融数据的关联分析中,有两种关联关系:一是同步的数据关联,二是有一定时间差距的关联,例如某个股票的指标出现某种特征时,两个交易日后股票涨停板,那么,这两种关联关系我们都需要考虑。

生产质量数据

生产质量数据也是关联分析应用的重要场所,其实做法跟金融行业非常相似,我们主要关注产品次品率,也是同样将产品次品率高的批次标识出来,与相应的生产数据进行关联分析,包括产品批次、供货批次、班次、工人师傅等级、车间、电压等数据。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多