数据挖掘入门系列教程(五)之Apriori算法Python实现
数据挖掘入门系列教程(五)之Apriori算法Python实现 加载数据集 获得训练集 频繁项的生成 生成规则 获得support 获得confidence 获得Lift 进行验证 总结 数据挖掘入门系列教程(五)之Apriori算法Python实现 在上一篇 博客 中,我们介绍了Apriori算法的算法流程,在这一片博客中,主要介绍使用Python实现Apriori算法。数据集来自 grouplens 中的电影数据,同样我的 GitHub 上面也有这个数据集。 推荐下载这个数据集,1MB大小够了,因为你会发现数据集大了你根本跑不动,Apriori的算法的复杂度实在是😔。 那么,这个我们使用数据集的作用是什么呢?简单点来说,就是某一个用户如喜欢看 电影,那么他很可能也喜欢看 电影。我们就是需要分析这个关系。 万物始于加载数据集 加载数据集 因为下载的数据集是一个zip压缩包,首先,我们需要将数据解压出来: import zipfile zFile = zipfile.ZipFile( "ml-latest-small.zip", "r") #ZipFile.namelist(): 获取ZIP文档内所有文件的名称列表 for fileM in zFile.namelist(): zFile.extract(fileM) 解压出来的数据如下图: 主要介绍两个文件 ratings.csv