分享

关联规则--支持度与置信度

 _超级赛亚人_ 2015-06-11
支持度,简单的字面理解就是支持的程度,一般以百分比表示。生活中常见的使用场合有投票、竞选、民意调查等,比如某校高一三班进行班委竞选,该班级共有学生50名,在班长一职的竞选中,张三得到40票。那么就可以说在该班班长竞选中,张三的支持度是:40/50*100%=80%。
该名词还常出现在数据挖掘的关联分析中,常跟 置信度(或可信性)一起出现。
如:某超市中有1000个顾客购物,其中200个顾客购买了面包(物品集A),那么面包(物品集A)的支持度为:
P(A)=20%(200/1000)。
关联规则从一个侧面揭示了事务之间的某种联系。
支持度和置信度总是伴随着关联规则存在的,它们是对关联规则的必要的补充。
对某条关联规则而言,如 A -> B (support=30%, confidence= 60%)
其中的support=30%是说,在所有的事务中同时出现A和B的概率。
而,confidence=60%是说,所有事务中,在出现A的情况下出现B的概率,即条件概率
那么我们要怎样设置支持度和置信度呢?
支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系
并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了。这就
涉及到如何正确设置支持度的问题。
当然,对数据库中的隐藏的关联规则的挖掘有一个重要的性质就是知识总是出现在不同的层面上,
因此这也是一个需要着重考虑的问题。
置信度揭示了A出现时,B是否一定会出现,如果出现则其大概有多大的可能出现。如果置信度为100%,
则说明了A出现时,B一定出现。那么,对这种情况而言,假设A和B是市场上的两种商品,就没有理由不进行捆绑销售了。
如果置信度太低,那么就会产生这样的疑问,A和B关系并不大,也许与A关联的并不是B.
当然了,就做题而言,往往给出支持度和置信度的要求。在一个具体的数据挖掘任务中,也是用户自行设置这两个值。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多