大数据案例：啤酒尿布的关联算法怎么来的？

时间：2015-12-01　|　来源：数据挖掘与数据分析　|　阅读：96

话题：数据挖掘与数据分析

比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次，那么此关联的支持度为5%。

和关联算法很相关的另一个概念是置信度(Confidence)，也就是在数据集中已经出现A时，B发生的概率，置信度的计算公式是：A与B同时出现的概率/A出现的概率。

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，或者即使知道也是不确定的，因此关联分析生成的规则带有置信度。

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

关联规则的发现过程可分为如下两步：

第一步是迭代识别所有的频繁项目集(FrequentItemsets)，要求频繁项目集的支持度不低于用户设定的最低值;

第二步是从频繁项目集中构造置信度不低于用户设定的最低值的规则，产生关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。

支持度和置信度两个阈值是描述关联规则的两个最重要的概念。一项目组出现的频率称为支持度，反映关联规则在数据库中的重要性。而置信度衡量关联规则的可信程度。如果某条规则同时满足最小支持度(min-support)和最小置信度(min-confidence)，则称它为强关联规则。

关联规则数据挖掘阶段

第一阶段必须从原始资料集合中，找出所有高频项目组(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。以一个包含A与B两个项目的2-itemset为例，我们可以求得包含{A,B}项目组的支持度，若支持度大于等于所设定的最小支持度 (MinimumSupport)门槛值时，则{A,B}称为高频项目组。一个满足最小支持度的k-itemset，则称为高频k-项目组 (Frequentk-itemset)，一般表示为Largek或Frequentk。算法并从Largek的项目组中再试图产生长度超过k的项目集 Largek+1，直到无法再找到更长的高频项目组为止。