浅谈数据挖掘
数据挖掘其实是一种深层次的数据分析方法。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 应用的技术包括:数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面。 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知,有效和可实用三个特征。 数据挖掘的目标是 从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 1.自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。 2.关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。 3.聚类数据库中的记录可被划分为一系列有意义的子集,即聚类。 4.概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。 5.偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 数据挖掘技术包括关联分析、序列分析、分类、预测、聚类分析及时间序列分析等。 1.关联分析主要用于发现不同事件之间的关联性