游戏开发论坛

 找回密码
 立即注册
搜索
查看: 13332|回复: 4

小白学数据分析之关联分析算法篇Apriori

[复制链接]

1万

主题

1万

帖子

2万

积分

管理员

中级会员

Rank: 9Rank: 9Rank: 9

积分
20456
发表于 2012-5-12 00:28:00 | 显示全部楼层 |阅读模式
博客:data-intelligence

小白学数据分析 目录

  早些时候写过关于购物篮分析的文章,其中提到了C5.0和Apriori算法,没有仔细说说这算法的含义,昨天写了一下关联分析的理论部分,今天说说关联分析算法之一的Apriori算法,很多时候大家都说,数据分析师更多的是会用就可以了,不必纠结于那些长篇累牍的理论,其实我觉得还是有点必要的,你未必要去设计算法,但是如果你掌握和熟知一个算法,这对于你如何驾驭和使用这个算法是很有帮助的,此外每个算法都有使用的局限性,比如空间和时间复杂度,使用条件约束。最典型的就是我们难道一份原始数据,然后经过数据处理要进行算法模拟分析,但是此时你会出现一个问题,我需要处理哪些数据,如何处理?而这就需要你对你所使用的算法必须熟悉,比如能够操作的数据格式,类型。比如GRI算法要求使用的数据必须是事实表的方式存储,这样的算法特点必须建立在对于算法的了解把握层次上。

Apriori算法

  其名字是因为算法基于先验知识(prior knowledge).根据前一次找到的频繁项来生成本次的频繁项。Apriori是关联分析中核心的算法。

Apriori算法的特点

  只能处理分类变量,无法处理数值型变量;

  数据存储可以是交易数据格式(事务表),或者是事实表方式(表格数据);

  算法核心在于提升关联规则产生的效率而设计的。

Apriori的思想

  正如我们之前所提到的,我们希望置信度和支持度要满足我们的阈值范围才算是有效的规则,实际过程中我们往往会面临大量的数据,如果只是简单的搜索,会出现很多的规则,相当大的一部分是无效的规则,效率很低,那么Apriori就是通过产生频繁项集,然后再依据频繁项集产生规则,进而提升效率。

  以上所说的代表了Apriori算法的两个步骤:产生频繁项集和依据频繁项集产生规则。

  那么什么是频繁项集?

  频繁项集就是对包含项目A的项目集C,其支持度大于等于指定的支持度,则C(A)为频繁项集,包含一个项目的频繁项集称为频繁1-项集,即L1。

  为什么确定频繁项集?

  刚才说了,必须支持度大于我们指定的支持度,这也就是说能够确定后面生成的规则是在普遍代表性上的项目集生成的,因为支持度本身的高低就代表了我们关联分析结果是否具有普遍性。

  怎么寻找频繁项集?

  这里不再讲述,直接说一个例子大家就都明白了。例子来源于Fast Algorithms for Mining Association Rules

  Apriori寻找频繁项集的过程是一个不断迭代的过程,每次都是两个步骤,产生候选集Ck(可能成为频繁项集的项目组合);基于候选集Ck计算支持度,确定Lk。

  Apriori的寻找策略就是从包含少量的项目开始逐渐向多个项目的项目集搜索。

数据如下:



  我们看到,数据库存储的数据格式,会员100购买了 1 3 4三种商品,那么对应的集合形式如右边的图所示。那么基于候选集C1,我们得到频繁项集L1,如下图所示,在此表格中{4}的支持度为1,而我们设定的支持度为2。支持度大于或者等于指定的支持度的最小阈值就成为L1了,这里{4}没有成为L1的一员。因此,我们认定包含4的其他项集都不可能是频繁项集,后续就不再对其进行判断了。



  此时我们看到L1是符合最低支持度的标准的,那么下一次迭代我们依据L1产生C2(4就不再被考虑了),此时的候选集如右图所示C2(依据L1*L1的组合方式)确立。C2的每个集合得到的支持度对应在我们原始数据组合的计数,如下图左所示。



  此时,第二次迭代发现了{1 2} {1 5}的支持度只有1,低于阈值,故而舍弃,那么在随后的迭代中,如果出现{1 2} {1 5}的组合形式将不被考虑。



  如上图,由L2得到候选集C3,那么这次迭代中的{1 2 3} { 1 3 5}哪去了?如刚才所言,{1 2} {1 5}的组合形式将不被考虑,因为这两个项集不可能成为频繁项集L3,此时L4不能构成候选集L4,即停止。

  如果用一句化解释上述的过程,就是不断通过Lk的自身连接,形成候选集,然后在进行剪枝,除掉无用的部分。

根据频繁项集产生简单关联规则

  Apriori的关联规则是在频繁项集基础上产生的,进而这可以保证这些规则的支持度达到指定的水平,具有普遍性和令人信服的水平。

  以上就是Apriori的算法基本原理,留了两个例子,可以加深理解。

例子1:



例子2:







小白学数据分析 目录

0

主题

2

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2012-5-16 11:45:00 | 显示全部楼层

Re:小白学数据分析之关联分析算法篇Apriori

对有L2得到C3的具体过程做一下补充:
连接:两两连接时,当且仅当两个项集中只有一个元素不同的时候才可以进行连接。
如楼主例中,由L2自连接得到C3。
L2 {1 3} {2 3} {2 5} {3 5}
如果简单的两两连接会得到6个项集,但是
{1 3} {2 5}中没有相同的元素,这两个项集不能连接;如果连接,会得到{ 1 2 3 5},这是一个4项集,不是3项集。
剪枝:连接后得到 {1 2 3} {1 3 5} {2 3 5} 3个3项集,但是 2项集{1 5}只出现了1次,小于最小支持计数,因此包含2项集{1 5}的3项集 {1 3 5} 要舍去;2项集(1 2}也只出现了1次,同样舍去,最后得到频繁3项集{2 3 5}。

26

主题

428

帖子

517

积分

高级会员

Rank: 4

积分
517
发表于 2012-5-17 16:08:00 | 显示全部楼层

Re:小白学数据分析之关联分析算法篇Apriori

整那么复杂的东西出来做什么,让你出业绩不是出学术成果!

40

主题

1326

帖子

1355

积分

金牌会员

Rank: 6Rank: 6

积分
1355
QQ
发表于 2012-5-17 16:24:00 | 显示全部楼层

Re:小白学数据分析之关联分析算法篇Apriori

这货是来炫耀自己智商低的,无视就好了

(能写出《时间简史》再来这里当老师不迟)

5

主题

1461

帖子

1526

积分

金牌会员

Rank: 6Rank: 6

积分
1526
发表于 2012-5-18 17:49:00 | 显示全部楼层

Re:小白学数据分析之关联分析算法篇Apriori

这篇文章只是在这里做点科普,你们这样不厚道。。。。。。。。。(虽然我也同意你们的意见)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

作品发布|文章投稿|广告合作|关于本站|游戏开发论坛 ( 闽ICP备17032699号-3 )

GMT+8, 2025-2-5 22:12

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表