频道栏目
首页 > 资讯 > Python 实例 > 正文

python实现Apriori算法

18-05-03        来源:[db:作者]  
收藏   我要投稿

Apriori算法是Agrawl和R.Srikant于1994年提出的,为布尔关联规则挖掘频繁项集的原创性算法[AS94b]。该算法使用了频繁项集性质的先验知识,使用了一种称为逐层迭代方法。为了提高频繁项集逐层产生的效率,该算法使用了先验性质 用于压缩搜索空间。

先验性质 :频繁项集的所有非空子集也一定是频繁的。

Apriori算法主要由两步组成——连接步 剪枝步
参考链接:关联规则,Apriori算法及python实现
原文中没有进行剪枝的操作,本文主要添加了剪枝部分的代码,通过遍历候选项集的子集,加入该项的子集不在频繁项集中,则该项不是频繁项,将其删去。

# -*- coding: utf-8 -*-
import copy

def PowerSetsBinary(items):
    """
    找出集合的所有子集
    """
    #generate all combination of N items
    N = len(items)
    #enumerate the 2**N possible combinations
    for i in range(2**N):
        combo = []
        for j in range(N):
            #test jth bit of integer i
            if(i >> j ) % 2 == 1:
                combo.append(items[j])
        yield combo


def loadDataSet():
    """
        创建一个用于测试的简单的数据集
    """
    D = [[1, 2, 5], [2, 4], [2, 3], [1, 2, 4], [1, 3], [2, 3], [1, 3], [1, 2, 3, 5], [1, 2, 3]]
    return D


def createC1(dataSet):
    """
        构建初始候选项集的列表,即所有候选项集只包含一个元素,
        C1是大小为1的所有候选项集的集合
    """
    C1 = []
    for transaction in dataSet:
        for item in transaction:
            if [item] not in C1:
                C1.append([item])
    C1.sort()
    # return map( frozenset, C1 )
    # return [var for var in map(frozenset,C1)]
    return [frozenset(var) for var in C1]


def scanDataSet(D, Ck, minSupport):
    """
        计算Ck中的项集在数据集合D(记录或者transactions)中的支持度,
        返回满足最小支持度的项集的集合,和所有项集支持度信息的字典。
    """
    subSetCount = {}
    # D=[{},{},{}] tid.type==set
    for tid in D:
        # Ck = [{},{},{}],can.type==frozenset
        for can in Ck:
            # 检查候选k项集中的每一项的所有元素是否都出现在每一个事务中,若true,则加1
            if can.issubset(tid):
                # subSetCount为候选支持度计数,get()返回值,如果值不在字典中则返回默认值0。
                subSetCount[can] = subSetCount.get(can, 0) + 1
    numItems = float(len(D))
    returnList = []
    # 选择出来的频繁项集,未使用先验性质
    supportData = {}
    for key in subSetCount:
        # 计算绝对支持度。
        support = subSetCount[key] / numItems  # 每个项集的支持度
        if support >= minSupport:  # 将满足最小支持度的项集,加入returnList
            returnList.insert(0, key)
        supportData[key] = support  # 汇总支持度数据
    return returnList, supportData


def aprioriGen(Lk, k):  # Aprior算法
    """
        由初始候选项集的集合Lk生成新的生成候选项集,
        k表示生成的新项集中所含有的元素个数
    """
    returnList = []
    for i in range(len(Lk)):
        L1 = list(Lk[i])[: k - 2]
        for j in range(i + 1, len(Lk)):
            # Lk[i].type == frozenset
            # 只需取前k-2个元素相等的候选频繁项集即可组成元素个数为k+1的候选频繁项集
            L2 = list(Lk[j])[: k - 2]
            L1.sort()
            L2.sort()
            if L1 == L2:
                # print("k:{}---L1:{}---L2:{}".format(k, Lk[i], Lk[j]))
                # 返回一个包含Lk[i]和Lk[j]中每一个元素的集合set,相当于集合的union方法
                returnList.append(Lk[i] | Lk[j])

    # print("returnList:{}".format(returnList))
    return returnList

def has_infrequent_subset(L, Ck, k):
    # 这里涉及到深拷贝、浅拷贝的知识
    Ckc = copy.deepcopy(Ck)
    for i in Ck:
        p = [t for t in i]
        i_subset = PowerSetsBinary(p)
        subsets = [i for i in i_subset]
        # print(subsets)
        for each in subsets:
            # print(each)
            if each!=[] and each!=p and len(each) 0):
        Ck = aprioriGen(L[k - 2], k)
        # 剪枝
        Ck2 = has_infrequent_subset(L, Ck, k)
        # 候选支持度计数和min_sup进行比较
        Lk, supK = scanDataSet(D, Ck2, minSupport)
        # 将新的项集的支持度数据加入原来的总支持度字典中
        suppData.update(supK)
        # 将符合最小支持度要求的项集加入L
        L.append(Lk)
        # 新生成的项集中的元素个数应不断增加
        k += 1
    # 返回所有满足条件的频繁项集的列表,和所有候选项集的支持度信息
    return L[:-1], suppData


if __name__ == '__main__':
    myDat = loadDataSet()
    L, suppData = apriori(myDat, 0.22)
    print("频繁项集L:", L)
相关TAG标签
上一篇:大数据学习之环境搭建案例、linux虚拟集群
下一篇:时间序列分析与深入挖掘
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站