无监督学习

聚类算法之K-Means,K-Means++,elkan K-Means和MiniBatch K-Means算法流程

核能气质少年 提交于 2020-01-04 00:14:28
聚类问题是机器学习中无监督学习的典型代表,在数据分析、模式识别的很多实际问题中得到了应用。我们知道,分类问题是机器学习中最常见的一类问题,它的目标是确定一个物体所属的类别。分类问题和聚类问题一个最重要的区别在于分类问题有标签,学习过程实际就是程序不断学习各个标签特点的过程,而聚类问题是一种无监督学习问题,我们事先并不知道这些事物一共多少个类,每个事物的所属类别,我们需要让程序基于一定的规则,自动地将事物分为我们需要的类。 我们在进行聚类分析的时候,需要确定 无监督学习算法需要决定的三个问题: 1.分成几类? 2.样本之间的距离度量方式? 3.聚类策略? 下面,我们来看一些常用的聚类算法: 一、K-Means K-Means聚类又叫K均值聚类,是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。 K-Means算法过程: 1.输入数据 D = { x 1 , x 2 , x 3 , . . . , x m } D=

K-MEANS算法

有些话、适合烂在心里 提交于 2020-01-01 09:50:26
一、聚类思想 所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征,如下图所示: 根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。 二、k-means聚类分析算法 相关概念: K值:要得到的簇的个数 质心:每个簇的均值向量,即向量各维取平均即可 距离量度:常用欧几里得距离和余弦相似度(先标准化) 算法流程: 1、首先确定一个k值,即我们希望将数据集经过聚类得到k个集合。 2、从数据集中随机选择k个数据点作为质心。 3、对数据集中每一个点,计算其与每一个质心的距离(如欧式距离),离哪个质心近,就划分到那个质心所属的集合。 4、把所有数据归好集合后,一共有k个集合。然后重新计算每个集合的质心。 5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),我们可以认为聚类已经达到期望的结果,算法终止。 6、如果新质心和原质心距离变化很大,需要迭代3~5步骤。 三、数学原理 K-Means采用的启发式方式很简单,用下面一组图就可以形象的描述: 上图a表达了初始的数据集,假设k=2。在图b中,我们随机选择了两个k类所对应的类别质心,即图中的红色质心和蓝色质心

数据挖掘试题(150道)

a 夏天 提交于 2020-01-01 00:29:43
单选题 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?© A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则

机器学习实战09:K均值聚类

帅比萌擦擦* 提交于 2019-12-28 23:18:48
聚类 聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。K-均值( K-means)聚类的算法之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。 簇识别 在介绍K-均值算法之前,先讨论一下簇识别( cluster identification)。簇识别给出聚类结果的含义。假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样。因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监督分类( unsupervised classification)。聚类分析试图将相似对象归入同一簇,将不相似对象归到不同簇。相似这一概念取决于所选择的相似度计算方法。 K-均值聚类 优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 适用数据类型:数值型数据。 K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心( centroid),即簇中所有点的中心来描述。 K-均值算法的工作流程是这样的。首先,随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中,具体来讲,为每个点找距其最近的质心

无监督学习一些算法的简要概括(一)-稀疏自编码

被刻印的时光 ゝ 提交于 2019-12-27 17:32:11
无监督学习(unsurpervised learning)是深度学习的基础,也是大数据时代科学家们用来处理数据挖掘的主要工具。个人理解的话就是数据太多,而人们不可能给每个数据样本加标签吧,所以才有了无监督学习。当然用的最多的是用无监督学习算法训练参数,然后用一部分加了标签的数据测试。这种方法叫半监督学习(semi-unsurpervised)。最近看的几个深度学习算法是:稀疏自编码(sparse auto-encoder)、稀疏限制玻尔兹曼机器(sparse RBM)、K-means 聚类和高斯混合模型。根据论文An Analysis of Single-Layer Networks in Unsupervised Feature Learning的实验结果,K-means聚类算法是准确率最高,而且不需要超参数(hyper-parameter)。 稀疏自编码(sparse auto-encoder) 提到自编码,就必须了解BP神经网络。而稀疏自编码是在自编码基础上加入了对隐藏单元活性(activition)的限制:即稀疏性参数ρ,通常是一个接近于0的较小值(比如ρ=0.05)。如果机器学习的基础比较薄弱的话,建议先看Andrew Ng 老师讲授的 《机器学习》 。 BP神经网络,是使用前向传播(forward propagation)、后向传播(backward

机器学习第八周-K-means聚类

不问归期 提交于 2019-12-26 12:08:23
学习内容:模型原理、收敛过程、代码实现 一、模型原理 聚类的概念 聚类试图将数据集中的样本划分为若干个通常是不想交的子集,每个子集成为簇。通过这样的划分,每个簇可能对应一些潜在的概念(也就是类别),如浅色瓜,深色瓜,有籽瓜,甚至本地瓜,外地瓜;需要说明的事,这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇对应的概念语义由使用者来把握和命名 聚类和分类的区别 聚类是无监督的学习算法,分类是有监督的学习算法。所谓有监督就是有已知标签的训练集(也就是说提前知道训练集里的数据属于哪个类别),机器学习算法在训练集上学习到相应的参数,构建模型,然后应用到测试集上。而聚类算法没有标签,聚类的时候,只是把需要实现的目标相似的东西聚到了一起 性能度量 聚类的目的是把相似的样本聚到一起,而将不相似的样本分开,类似物以类聚,很直观的想法是同一个簇中的相似度要尽可能高,而簇与簇之间的相似度要尽可能的低。性能度量大概可以分为两类:一是外部指标,二是内部指标 外部指标:将聚类结果和某个参考模型进行比较 内部指标:不利用任何参考模型,直接考察聚类结果 不同的簇类型 明显分离的簇、基于中心的簇、基于邻近的簇、基于密度的簇、概念簇 基本聚类分析算法 K均值:基于原型的。划分的距离技术,它试图发现用户指定个数K的簇 凝聚的层次距离:思想是开始时,每个点都作为单点簇,然后,重复合并两个最靠近的簇

“机器学习实战”刻意练习——聚类问题:K均值聚类

天涯浪子 提交于 2019-12-24 04:13:54
一、概述 聚类 是一种无监督的学习,它将相似的对象归到同一个簇中。 聚类方法几乎可以应用于所有对象,簇内的对象 越相似 ,聚类的效果越好。 K均值(K-means)聚类算法 可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。 在介绍K-均值算法之前,先讨论一下 簇识别(cluster identification) 。 簇识别给出 聚类结果的含义 。 假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么。 聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样。 因为其产生的结果与分类相同,而只是 类别没有预先定义 ,聚类有时也被称为 无监督分类(unsupervisedclassification )。 聚类分析试图将相似对象归入同一簇,将不相似对象归到不同簇。 相似 这一概念取决于所选择的相似度计算方法。到底使用哪种相似度计算方法取决于具体应用。 优缺点 优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 适用数据类型 数值型数据 K-均值聚类的一般流程 (1) 收集数据:使用任意方法。 (2) 准备数据:需要数值型数据来计算距离,也可以将 标称型数据映射为二值型数据 再用于距离计算。 (3) 分析数据:使用任意方法。 (4) 训练算法:不适用于无监督学习,即 无监督学习没有训练过程 。 (5) 测试算法

【文智背后的奥秘】系列篇——文本聚类系统

感情迁移 提交于 2019-12-22 19:56:25
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/131 来源:腾云阁 https://www.qcloud.com/community 一.文本聚类概述 文本聚类是文本处理领域的一个重要应用,其主要目标是将给定的数据按照一定的相似性原则划分为不同的类别,其中同一类别内的数据相似度较大,而不同类别的数据相似度较小。聚类与分类的区别在于分类是预先知道每个类别的主题,再将数据进行划分;而聚类则并不知道聚出来的每个类别的主题具体是什么,只知道每个类别下的数据相似度较大,描述的是同一个主题。因此,文本聚类比较适合用于大数据中热点话题或事件的发现。 文智平台提供了一套文本聚类的自动化流程,它以话题或事件作为聚类的基本单位,将描述同一话题或事件的文档聚到同一类别中。用户只需要按照规定的格式上传要聚类的数据,等待一段时间后就可以获得聚类的结果。通过文本聚类用户可以挖掘出数据中的热门话题或热门事件,从而为用户对数据的分析提供重要的基础。本文下面先对文本聚类的主要算法作介绍,然后再具体介绍文智平台文本聚类系统的原理与实现。 二.文本聚类主要算法 文本聚类需要将每个文档表示成向量的形式,以方便进行相似度的计算。词袋模型(bag of

聚类与判别总结

☆樱花仙子☆ 提交于 2019-12-11 21:18:17
聚类与判别 方差分析使用类别自变量和连续数因变量,而判别分析连续自变量和类别因变量(即类标签) 启发式方法: K-mean 和 k-medoid 算法 k-means :每个群集由群集的中心表示 K-medoid 或 PAM( 围绕 medoid 的分区 ) :每个集群由集群中的一个对象表示 ============================================ K-Mean 就是在已知要分为 4 类之后,将 K=4 ,随便找到 4 个点,计算每个原始点的到这四个点中心的距离,选择距离最近的点归类,这就有 4 类点,再在这些点内部计算每一点的质心,这就有了新的 4 个点,再对所有点计算到这四个点的距离,然后比较,以此类推。 处理数值数据 ======================================================== L-medoid 聚类方法 即若 K=2 ,则选择原始数据中的某两个点作为原始 medoids ,计算每个点到该点的距离,形成两个簇,再选择一个非之前的点作为 medoid ,如果花费得到改善则将 medoid 值替换为改点,如果没有得到改善则不变。 处理分类数据 对 PAM 的评论 在存在噪声和异常值的情况下, pam 比 k 均值更健壮,因为 Medoid 受异常值或其他极值的影响小于 k-means 。 因为

吴恩达机器学习视频笔记——8

孤街醉人 提交于 2019-12-11 15:28:28
10、支持向量机 10.1、大边界的直观理解 支持向量机 ( Support VectorMachine ) ,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。 10.2、核函数 10.3、应用SVM 11、聚类 11.1、无监督机器学习 11.2、K-Means(K均值算法) 11.3优化目标 11.4、随机初始化 11.5、选择聚类数 12、降维 12.1、动机一:数据压缩 12.2、动机二:数据可视化 12.3、主成分分析问题 12.4、主成分分析算法 12.5、选择主成分的数量 12.6、重建的压缩表示 12.7、主成分分析法的应用建议 本博客主要引用文章如下: 作者:黄海广 链接:斯坦福大学2014机器学习教程个人笔记(V5.4) 来源:PDF 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 来源: https://www.cnblogs.com/AlexWangle-one/p/12022673.html