数据挖掘算法

2019学习笔记之数据挖掘

拥有回忆 提交于 2019-11-27 07:21:40
学习大纲 探索性数据分析 数据划分 结果检验 分类模型 探索性数据分析 1.缺失值情况 missingno.matrix(df) 2.因变量Y的情况 df.Y.value_counts() 3.可视化样本相关性 Xyang = df[df[“Y”] == 1] Xnormal = df[df[“Y”] == 0] sns.heatmap(Xyang.drop(‘Y’,axis=1).corr(),vmax=1,vmin=0,cmap=‘YlGnBu’) sns.heatmap(Xnormal.drop(‘Y’,axis=1).corr(),vmax=1,vmin=0,cmap=‘YlGnBu’) 4.各变量在正负样本中的分布 数据划分 1.训练集与测试集 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.1, random_state = 0) 结果检验 1.计算预测准确率 accuracy_score(Y_test,predicted1) 2.生成混淆矩阵 confusion_matrix(Y_test, predicted1) print(classification_report(Y_test, predicted1)) 准确率 所有识别为”1”的数据中,正确的比率是多少。

数据挖掘10大算法(1)——PageRank

筅森魡賤 提交于 2019-11-27 01:51:40
1. 前言 这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1)。文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现。如果发现文中有错,希望各位指出来,一起讨论。 图1 来自IDMer的文章 在这些算法中,最引人注目的自然是Google的核心技术之一——PageRank。因此本系列就先来探索PageRank的诞生过程。 2. 核心思想 常言道,看一个人怎样,看他有什么朋友就知道了。也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大。将这个知识迁移到网页上就是“ 被越多优质的网页所指的网页,它是优质的概率就越大 ”。 PageRank的核心思想就是上述简单却有效的观点。由这个思想,可以得到一个直观的公式: (1) R(x)表示x的PageRank,B(x)表示所有指向x的网页。 公式(1)的意思是一个网页的重要性等于指向它的所有网页的重要性相加之和。粗看之下,公式(1)将核心思想准确地表达出来了。但仔细观察就会发现,公式(1)有一个缺陷:无论J有多少个超链接,只要J指向I,I都将得到与J一样的重要性。当J有多个超链接时,这个思想就会造成不合理的情况。例如:一个新开的网站N只有两个指向它的超链接,一个来自著名并且历史悠久的门户网站F,另一个来自不为人知的网站U。根据公式(1),就会得到N比F更优质的结论。这个结论显然不符合人们的常识。

数据挖掘经典算法概述以及详解链接

不想你离开。 提交于 2019-11-26 21:47:42
po主最近在学习数据挖掘方面相关算法,今天就在这里总结一下数据挖掘领域的经典算法,同时提供每个算法的详解链接,就当做在这里温习吧。对于熟悉的算法我会有较多的描述,不熟悉的算法可能描述较少,以免误导,但是会贴出学习的链接。由于本人也是资历尚浅,必然有错误的地方,也希望大家能够指出来,我也会改正的,谢谢大家。 数据挖掘方面的算法,主要可以用作 分类,聚类,关联规则,信息检索,决策树,回归分析 等。他们的界限并不是特别的明显,常常有交叉,如聚类算法在一定程度上也是一种分类算法。分类算法比较成熟,并且分支也较多。 这里先介绍两个概念: 监督学习 与 非监督学习 。通俗一点说,如果我们提前设置一些标签,然后对于每个待分类项根据一定规则分类到某些标签,这就是 监督学习 。如果我们提前不知道标签,而是通过一定的统计手段将一定量的数据,分成一个个类别,这就是 非监督学习 ,通常用作“聚类”(不绝对)。当然监督学习常用作分类学习,也可用作回归分析等。 1.K-Means算法 K-Means算法是一种常用的 非监督学习 聚类算法,也常用在图像检索领域,如K-Means+BoF算法。它的作用就是我们可以在不知道有哪些类别的情况下,将数据以K个 类心 ,聚成K个 聚类 。 通常我们会先确定一个相异度度量方法,常用的相异度有, 欧氏距离,曼哈顿距离,马氏距离,余弦距离 等。根据两个数据之间的“距离

一文带你了解什么是数据挖掘

梦想的初衷 提交于 2019-11-26 20:44:05
大数据时代已经来临,利用网络和生活中产生的大量数据发现问题并创造价值,使得数据挖掘成了一门新的学科和技术。那么什么是大数据挖掘,数据挖掘的过程是什么,以及它的具体算法又有哪些?今天这篇文章,将带你一起了解数据挖掘的那些事儿。 01、首先,数据挖掘到底是什么? 官方的定义,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 通俗易懂的说,数据挖掘就是从大量的数据中,发现那些我们想要的“东西”。 02 这个“东西”具体指什么? 一种被称为预测任务。 也就是说给了一定的目标属性,让去预测目标的另外一特定属性。如果该属性是离散的,通常称之为‘分类’,而如果目标属性是一个连续的值,则称之为‘回归’。 另一种被称为描述任务。 这是指找出数据间潜在的联系模式。比方说两个数据存在强关联的关系,像大数据分析发现的一个特点:买尿布的男性通常也会买点啤酒,那么商家根据这个可以将这两种商品打包出售来提高业绩。另外一个非常重要的就是聚类分析,这也是在日常数据挖掘中应用非常非常频繁的一种分析,旨在发现紧密相关的观测值组群,可以在没有标签的情况下将所有的数据分为合适的几类来进行分析或者降维。 其他的描述任务还有异常检测,其过程类似于聚类的反过程,聚类将相似的数据聚合在一起

数据挖掘笔记——概念学习

橙三吉。 提交于 2019-11-26 15:04:52
概念学习可近似为分类问题,例如一个小孩子看过几种鸟的图片,如果再给他一张另外一种没见过的鸟的图片,他还是可以认出这是只鸟,换句话说他已经建立了“鸟”这一概念,进而根据一些特征进行判断是或不是属于这个概念。 一、概念和概念学习的定义 概念是在一个更大的集合里面定义一个对象或者事物的子集,或者说是一个从更大的集合里面学到的布尔函数。 概念学习,指自动地给出概念的定义。也就是说概念学习是从训练数据中学到一个符合训练数据的二元函数。从机器学习的角度,也可以说概念学习是一个在假设空间中的假设搜索问题。 例子: 概念:“days on which my friend enjoys water sports” 学习任务:从其他属性里面预测enjoysport的值 假设是属性的合取,是一个约束向量,例如<Sunny,Warm,Normal,Strong,Warm,Same> 属性的取值有三种,1)任意取值都可以<?> 2)其中某个值,注意是某一个值而不是多值的组合,例如<Warm> 3)任意取值都不可以 实例的项集:指属性名。例如:<sky temp humid wind water fore-cast > 要学习的概念叫做目标概念:即enjoysport的取值c:X->{0,1} 训练数据:实例x的集合和目标概念的值即<x,c(x)> 概念学习过程:在假设空间中寻找一个合适的假设,h:X->{0

数据挖掘和机器学习

时光总嘲笑我的痴心妄想 提交于 2019-11-26 11:37:37
机器学习: 是人工智能的核心研究领域,目前把他定义为: 利用经验来改善计算机系统性能 。 对于“经验”,实际上在计算机中,“经验”是以数据的形式存在的,所以机器学习 需要对数据进行分析运用。 提高泛化能力(generalization ability)是机器学习中最重要的问题之一。泛化能力表征了机器学习系统对新事件的适应能力,简单来说泛化能力越强,系统对事件做出的预测就越准确。 机器学习本质上就是一种对问题真实模型的逼近(我们选择一个我们认为比较好的近似模型,这个近似模型就叫做一个假设),但毫无疑问,真实模型一定是不知道的(如果知道了,我们干吗还要机器学习?直接用真实模型解决问题不就可以了?对吧,哈哈)既然真实模型不知道,那么我们选择的假设与问题真实解之间究竟有多大差距,我们就没法得知。比如说我们认为宇宙诞生于150亿年前的一场大爆炸,这个假设能够描述很多我们观察到的现象,但它与真实的宇宙模型之间还相差多少?谁也说不清,因为我们压根就不知道真实的宇宙模型到底是什么。 这个与问题真实解之间的误差,就叫做风险(更严格的说,误差的累积叫做风险)。我们选择了一个假设之后(更直观点说,我们得到了一个分类器以后),真实误差无从得知,但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值来表示

数据挖掘---介绍

给你一囗甜甜゛ 提交于 2019-11-26 11:35:44
数据挖掘(Data Mining) 又称知识库知识发现(Knowledge-Discovery in Databases 简称KDD)。 1.什么是DM?(what?) 简单点说,DM就是从海量数据中找到有价值的知识,这些知识可以是 规则、约束、模式、规律 等等。 这些知识可以使用图表,决策树,关联表等进行表示说明。 说到DM,感觉就应该说到数据库技术的发展。我们知道数据库技术从1960年代的简单收集数据到DBMS、关系型数据库等,一路发展过来的,也正是由于数据库技术的不断发展才会为DM的出现打下基础。 2.为什么会有DM?(why?) 主要是因为数据爆炸问题。当前由于数据收集和数据存储技术的快速发展使得各组织机构可以获得并积累海量的数据,比如google、facebook等,它们每天产生的数据量非常海量,然而利用传统的数据分析方法从这些海量数据中提取有用信息却是很有挑战,因此就衍生出数据挖掘这个概念。因此我们也可以这么认为,数据挖掘是一门技术,它将传统的的数据分析方法和处理大规模数据的复杂算法结合起来。 有一句话说的好:“我们淹没于数据中,却渴望得到知识” 3.在哪里使用了DM?(where?) 首先简单说明一下数据挖掘的一些技术: 1)关联规律的发现:Aprior算法 2)聚类分析:无师自同,训练数据没有类别标签 3)模型分类:举一反三,训练数据有类别标签,有监督学习。 4

人工智能之机器学习与数据挖据之WEKA使用与实践

家住魔仙堡 提交于 2019-11-26 02:07:59
阅读对象 只要你想读,你就读呗!最好点个赞再走。。。:-) 本文尽量通过例子和直观描述,来说明人工智能中机器学习和数据挖据的主要概念,分类,和使用方法,并通过例子描述如何使用它来促进公司业务发展。虽然标题偏技术,但内容涵盖面较广,涉及业务,产品,技术等多方面。主要目的是说清楚公司如何使用数据挖据为业务提速,所以推荐的阅读对象,是公司中高级运营管理人员,创始人。但并不一定合适人工智能,数据挖据的技术专家,因为它基本不涉及人工智能和数据挖据的底层技术,也不涉及深层次的数学原理和算法研究。 前言 近年来,人工智能,大数据是一个非常热门的词汇。与一些更加前沿的科技例如量子计算,神经网络,虚拟现实,区块链等等不同,这一类技术里面,已经有一些分类,实实在在地被商用并且产生了可观的效益。简单地说,本文所描述的数据挖据相关内容,事实上就是人工智能和大数据的一种结合。 哪儿有数据挖掘哪儿就有“啤酒与尿布”, “沃尔玛啤酒和尿布的故事”这个经典的案例是从事这行研究的人都知道的一个故事,说的是沃尔玛超市(Walmart)会在周末时把啤酒移到尿布货架的未端,这是因为沃尔玛的数据挖掘专家告诉老板,他们的研究结果显示男士通常会在周末购买尿布,而他们同时也喜欢在周末喝啤酒,如果放在一起那肯定会提升销售,老板照做了,结果啤酒销售果然增加了40%以上。。。很想知道这个经典案例是真实的还是为了宣传数据挖掘而制造的