很多人经常在相关分析和关联分析之间犯迷糊,实际上两者之间的差别很明显,相关分析是分析数据列之间同增同减的关系,而关联分析反映的是一个数据行内部的各个元素之间同时出现或者“你在、我就在”的关系。要讲关联分析,就不得不提到数据分析中“因果关系”的弱化这一趋势。 因果关系的弱化 在数据分析领域,我们都自觉不自觉地在追求和挖掘数据之间的“因果关系”,销售投入的增长是否会引起销售回款的增长,人口的流入是否一定会带来房价的上涨。随着数据分析技术的不断改进以及分析经验的不断积累,人们开始认识到,事物之间未必完全是“有因必有果、有果必有因”的关系,很多事件之间呈现一种比较松散的、逻辑性并非很强的“关联”关系,这种关联关系在数据挖掘而非传统统计的案例中经常出现。 要分析数据之间的“关联”关系,我们要应用apriori算法,目前各种主流的数据分析和挖掘软件,都采用了这个算法。 关联分析的指标 在数据中间挖掘“同时存在”或者“你在、我就在”的技术,就是关联分析。下面看几个重要的关联分析算法的基本概念。 支持度 支持度就是数据中的相应的元素同时出现的概率,置信度就是统计中的条件概率,不过条件概率到了关联分析中有了“前项”和“后项”这两个概念,例如A出现以后B出现的概率,称A为前项,B为后项,那么A到B的置信度就是: 反过来,B到A的置信度为: 提升度 提升度的定义,以X表示前项,Y表示后项,X到Y的提升度就是: 仅计算支持度和置信度是不够的,还要看支持度指标,其规则如下: 什么样的数据适合做关联分析 商超数据 商场和超市数据是关联分析最先被应用的地方,自然也是关联规则应用的主要场所。商超数据做关联分析的主要目的就是用来做捆绑销售,这种捆绑销售主要体现在两个方面: ❑ 实体店中的捆绑:将相应产品的货架摆放在一起或者放在比较相近的位置。 ❑ 网店中的搭售:根据客户消费中的关联性,进行相关礼包的组合或者销售的推荐。 金融数据 金融领域也是关联分析应用的重要场合,两个比较典型的应用是金融欺诈和关键指标分析 在金融数据的关联分析中,有两种关联关系:一是同步的数据关联,二是有一定时间差距的关联,例如某个股票的指标出现某种特征时,两个交易日后股票涨停板,那么,这两种关联关系我们都需要考虑。 生产质量数据 生产质量数据也是关联分析应用的重要场所,其实做法跟金融行业非常相似,我们主要关注产品次品率,也是同样将产品次品率高的批次标识出来,与相应的生产数据进行关联分析,包括产品批次、供货批次、班次、工人师傅等级、车间、电压等数据。 |
|