数据挖掘算法

《基于数据挖掘技术的课程相关性分析及其应用研究》 文献笔记(九)

你离开我真会死。 提交于 2019-12-04 18:25:35
一、基本信息 标题:基于数据挖掘技术的课程相关性分析及其应用研究 时间:2018 来源:四川师范大学 关键词:成绩分析系统; 功能区分; 数据库; 课程管理; 二、研究内容 1 .数据挖掘流程 2.简单相关分析参数设置 3.寻找频繁项集的过程 三、结论 对于数据挖掘的过程的步骤通过这篇文献能够不在一片茫然,可以按照图解一步步来。在通过前面的算法进行分析。 四、参考文献 [13]吴文玲. 基于数据挖掘技术的课程相关性分析及其应用研究[D].四川师范大学,2018. 来源: https://www.cnblogs.com/zzq1234/p/11877303.html

数据库建模平台和挖掘工具 TipDM

随声附和 提交于 2019-12-04 05:02:37
TipDM数据挖掘建模平台是基于Python引擎、用于数据挖掘建模的开源平台。平台提供数量丰富的数据分析与挖掘建模组件,用户可在没有编程基础的情况下,通过拖拽的方式进行操作,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,帮助用户快速建立数据挖掘工程,提升数据处理的效能。平台的界面如图1所示。 主要特性: 基于Python,用于数据挖掘建模。 使用直观的拖放式图形界面构建数据挖掘工作流程,无需编程。 支持多种数据源,包括CSV文件和关系型数据库。 支持挖掘流程每个节点的结果在线预览。 提供5大类共40种算法组件,包括数据预处理、分类、聚类等数据挖掘算法。 支持新增/编辑算法组件,自定义程度高。 提供众多公开可用的数据挖掘示例工程,一键创建,快速运行。 提供完善的交流社区,提供数据挖掘相关的学习资源(数据、代码和模型等)。 Screenshot 来源: https://www.cnblogs.com/fewfwf/p/11832556.html

《对学生成绩进行数据挖掘应用分析》 文献笔记(六)

五迷三道 提交于 2019-12-04 04:23:36
一、基本信息 标题:对学生成绩进行数据挖掘应用分析 时间:2017 来源:南方农机 关键词:主成分分析; 关联规则分析; 灰色关联; Apriori算法; 二、研究内容 1.班级实力综合评价 2.判断题与题之间的相关性:Apriori算法的关联规则分析 过程一:建立基于0-1矩阵的事务数据集。 过程二:找最大K项频繁集。 过程三:由频繁项集产生关联规则。 3.找出最能代表班级得分的某些同学 4.数探究哪两个班的教学方法最一致:运用相关系数公式计算任意两个班之间的相关系数 三、结论 在班级实力评估中,作者用了总分平均分、总分的方差、及格率、优秀率、低分率、难题得分率与基础得分率等7个指标作为评判其综合实力的指标,在第一篇文献中,聚类中心取值同样也可以使用这几个指标。学生成绩影响的一个因素:老师教学方式,可以用决策树也可以和这篇文献一样通过学生对每一道小题的掌握探究教学方式(相关系数公式也可以用作其他方面的比较)。 四、参考文献 [8]罗越,陈国柱,梅书宇.对学生成绩进行数据挖掘应用分析[J].南方农机,2019,50(09):266. 来源: https://www.cnblogs.com/zzq1234/p/11831074.html

基于数据挖掘的学生成绩分析系统的设计与实现 文献收集

只愿长相守 提交于 2019-12-04 02:32:53
1.李杰,数据挖据在学生成绩分析中的应用研究[D].西安:西安油门大学,2010. 2.周涛.数据挖掘中聚类算法研究进展[J].计算机工程与应用, 2012, 48 (12) :100-110. 3.陶彬贤.聚类算法分析及其在学生成绩分析中的应用[D].安徽师范大学, 2011. 4.张贵元.数据挖掘技术在中职学生成绩分析中的应用研究[D].广东技术师范学院, 2018. 5.张贵元.基于数据挖掘聚类算法的学生成绩分析[J].电脑知识与技术,2019,15(09):1-2 6.胡明明. 决策树算法在学生课程成绩分析中的应用研究[D].哈尔滨师范大学,2019. 7. 教育数据挖掘技术应用研究 [J]. 彭亚,于翠波,张勖. 中国教育技术装备 . 2017(18) 8.数据挖掘 : 概念与技术, 第3版[M]. 机械工业出版社 , (美) 韩家炜, 2012 9.教育数据挖掘[M]. 教育科学出版社 , 葛道凯, 2012 10.教学系统设计[M]. 高等教育出版社 , 何克抗,林君芬,张文兰编著, 2006 11.狄晓娇.基于数据挖掘技术的学生成绩分析[J].现代商贸工业,2018,39(17):170-171. 12.李跃. 成绩分析系统设计及实现[D].北京工业大学,2018. 13.吴文玲. 基于数据挖掘技术的课程相关性分析及其应用研究[D].四川师范大学,2018. 14

数据分析系列:数据挖掘之客户细分

最后都变了- 提交于 2019-12-03 16:36:11
数据挖掘(金融) ​ 数据挖掘是指从大量的不完全,有噪音,模糊的,随机的数据中提取出隐含在其中的有用的信息和知识的过程。金融行业的分析方案旨在帮助银行和保险也客户进行交叉销售来增加销售收入,对客户进行细分和细致的行为描述来有效的挽回有价值的客户,提高市场活动的相应效果,降低市场推广成本,达到有效增加客户数量的母的等。 客户细分 ​ 使客户收益最大化的同时最大化的降低风险的一种方法 ​ 客户细分是指按照一定的标准将企业的现有客户划分为不同的客户群。这是客户关系管理 的核心之一。 ​ 主要是指企业在明确的战略,业务,市场的条件下,根据客户的价值,需求和偏好的综合因素对客户进行分类,分属于统一客户群的消费者具备一定程度上的相似性,细分的依据主要是: 客户需求不同。影响消费者购买决策因素的差异后决定了消费者的需求,导致了不同的消费行为。 消费档次假说。消费者收入水平的提高,消费量会随着增加,但是这个增加是称区间台阶式的,一旦消费者达到莫衷消费层次后,消费的趋势将遍的非常平缓。 企业的资源是有限的,必须有选择地分配资源。为了充分发挥资源的最大效用,企业必须区分不同的客户群,对不同的客户制定不同的服务策略,集中资源服务好重点客户。 稳定性。有效的客户细分还必须具有相对的稳定性,足以实现在此基础上进行的实际应用,如果变化太快,应用方案还未来得及实施,群体就已面目全非,这样的细分方法就显得毫无意义

Jike_Time

≯℡__Kan透↙ 提交于 2019-12-03 13:27:23
数据分析全景图 1. 数据采集 。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据 源。 2. 数据挖掘。 它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数 据分析,就是要找到其中的规律,来指导我们的业务。 因此数据挖掘的核心是挖掘数据 的商业价值,也就是我们所谈的商业智能 BI。 3. 数据可视化。 它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析 的结果。 数据采集: 数据挖掘: 数据可视化: 学习数据分析就是从“思 维”到“工具”再到“实践”的一个过程。今天我会从更多的角度来和你分享我的学习经 验,我们可以把今天的内容叫作“修炼指南”。 借用傅盛的话来说,人与人最大的差别在于“认知”,所谓成长就是认知的升级。 很多人存在对“认知“的误解,认为认知不就是概念么?那么你有没有想过,针对同一个 概念,为什么不同的人掌握的程度是不一样的呢? 我们只有把 知识转化为自己的语言,它才真正变成了我们自己的东西 。这个转换的过程, 就是认知的过程。 先思考模型算法---选择工具--- 画图软件SketchBook 数据挖掘知识清单 来源: https://www.cnblogs.com/foremostxl/p/11797003.html

数据挖掘-决策树

匿名 (未验证) 提交于 2019-12-03 00:41:02
1.什么是决策树: 非叶子结点代表测试的条件。 分支代表测试的结果 2.如何构建决策树: ′1.信息熵(informationentropy):是度量样本集合纯度最常用的一种指标。 2.基尼系数(gini):是度量样本集合不确定性指标。(基尼指数与熵可近似看做是统一概念,都是越大,确定性越差) 基尼指数和信息熵的图像:(当熵和基尼指数为0.5时,即确定某件事的概率为50%,是最不能肯定的事件。如:小明后天再路上捡钱的概率为50%,很不确定。如果概率为30%,代表很可能捡不到钱;如果概率为60%,则代表更可能捡到钱。) 一个小栗子: 1.系统信息熵:(是,否为好瓜的两个属性) 2.每个特征的信息熵:(以色泽为例)(先计算出3 个属性的信息熵,依次为:青绿,乌黑,浅白) 然后,结合3 个属性,计算出特征为色泽的信息熵。 3.信息增益: 信息增益大,代表着熵小,所以确定性较高。 得出决策结果 但是,当我们使用ID编号作为一个特征量的时候 ′得到信息熵: ′信息增益为: 所以需要使用编号作为根节点吗?显然不可能。 (所以说:ID3决策树倾向于选择属性较多的特征,当这个特征不一定是最优的属性特征。同时,ID3决策树只能处理离散的属性,对于连续的属性,需要在 分类前对其进行离散化。) 因此,引入增益率: ′=1/(17)*17*log2(1/(17))=4.08 ′如果一个特征的取值越多

数据挖掘(机器学习)面试--SVM面试常考问题

匿名 (未验证) 提交于 2019-12-03 00:22:01
转自 https://blog.csdn.net/szlcw1/article/details/52259668 应聘数据挖掘工程师或机器学习工程师,面试官经常会考量面试者对SVM的理解。 以下是我自己在准备面试过程中,基于个人理解,总结的一些SVM面试常考问题(想到会再更新),如有错漏,请批评指正。(大神请忽视) 转载请注明出处:blog.csdn.net/szlcw1 SVM的原理是什么? SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大是它有别于感知机) (1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机; (2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机; (3)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。 注:以上各SVM的数学推导应该熟悉: 硬间隔最大化(几何间隔)---学习的对偶问题---软间隔最大化(引入松弛变量) --- 非线性支持向量机(核技巧)。 SVM为什么采用间隔最大化? 当训练数据线性可分时,存在无穷个分离超平面可以将两类数据正确分开。 感知机利用误分类最小策略,求得分离超平面,不过此时的解有无穷多个。 线性可分支持向量机 利用间隔最大化求得最优分离超平面 ,这时,解是唯一的

数据挖掘(1)知识点总结

匿名 (未验证) 提交于 2019-12-03 00:19:01
详细文章转自:https://blog.csdn.net/sinat_22594309/article/details/74923643 数据挖掘的一般过程包括以下这几个方面: 1、 数据预处理 2、 数据挖掘 3、 后处理 一、数据预处理 主要手段分为两种:选择分析所需的数据对象和属性;创造或改变属性。 1.常见的几种预处理方法:聚集、抽样、维归约、特征子集的选择、 特征的创建、 离散化和二元化、 变量变换。 就是把相关或者类似的数据对象集合到一起,常常用在数据探索阶段。 另外,聚集还有一个功能就是可以 改变数据的分辨率 ,以适应不同目的的数据挖掘工作。 最常见的抽样方法通常是随机抽样, 但如果我们处理的数据是非对称的,那么通常我们要采取分层抽样 ,因为随机抽样有可能把我们的稀疏样本给淹没了。 目的就是降低数据集的维度以期减少我们的计算量。最简单的维归约方法就是去除无效或者不相关的特征。当然,除此之外,我们也有一些数学方法来进行降维,比如说主成分分析(PCA)和奇异值分解(SVD)。 维归约确实帮我们去除了一部分冗余的特征,但很多时候冗余的特征并不是我们靠经验就可以全部筛选出来的。这个时候,一方面我们依靠某些算法计算特征的重要程度来进行特征的筛选,比如树的一些算法。另一方面如果计算资源足够,我们可以尝试不同的特征组合选择效果最好的特征组合用于我们最后的数据挖掘任务。当然

数据挖掘 第7章 关联分析:高级概念

匿名 (未验证) 提交于 2019-12-02 23:41:02
第7章 关联分析: 高级概念 本章就扩展到具有二元属性、分类属性和连续属性的数据集。 扩充到包含 序列 和 图形 如何扩展传统的Apriori算法来发现这些模式 7.1 处理分类属性 将分类属性和对称二元属性转换成项,就可以用已有的关联规则挖掘算法;将每个不同的属性-值对创建一个新的项(即转化为非对称二元属性)来实现 将关联分析用于二元化后的数据时,需要考虑如下问题: 合并不太频繁的属性值变成一个称作其他的类别。 删除某些出现频率很高的属性;或者使用处理具有宽支持度的极差数据集的技术 避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。 7.2 处理连续属性 量化关联规则:包含连续属性的关联规则通常 三类方法对连续数据进行关联分析 基于离散化的方法 基于统计学的方法 非离散化方法 7.1 基于离散化的方法 离散化技术:等宽、等频、聚类 区间宽度问题: 区间太宽,缺乏置信度 区间太窄,缺乏支持度 区间宽度解决方法:考虑邻近区间的每种可能的分组(即等步长的渐渐加大区宽),但这也导致了: 计算开销非常大 ―― 可以使用最大支持度阈值,防止创建对应于非常宽的区间的项,并减少项集的数量 提取许多冗余规则 7.2 基于统计学的方法 量化关联规则可以推断总体的统计性质 包括规则产生和规则确认 规则产生:先找到需要关注的目标属性