聚类

【cs224w】Lecture 3

拜拜、爱过 提交于 2020-04-08 20:33:50
目录 Network Motifs Configuration Model Graphlets How to Find Motifs and Graphlets Structural Roles 转自本人: https://blog.csdn.net/New2World/article/details/105291956 大量真实网络都有一个规律,即这些网络都是由一些 building block 构成,类似 Kronecker 图有大量的重复结构。而我们需要一种度量方式来衡量某个结构在图中的显著性。因此需要引入 motif 和 graphlet 这两个概念。 这一部分我还有一些概念没完全理解,所以在最后记录了一些问题等待以后回来解决。也欢迎有理解了的朋友帮忙解惑。 Network Motifs 这里实在无法确定 motif 的准确翻译是什么,干脆不翻译了。但它是什么东西还是得搞清楚的:在图中大量重复的模式被称为 motif。这个定义包含了三个要点 大量,就是多,比随机图多 重复,还是多 模式,即规模小的导出图 [1] 我们为什么需要这个 motif ?首先,既然这个概念的定义表明它在网络中大量存在,说明这个 motif 揭示了这个网络的一些普遍规律,比如食物链中的互利共生关系或竞争关系。同时我们可以依据这个规律预测一些我们可能还没有发现的网络中隐含的关系。 知道了 motif

Reducing Overfitting in Deep CNNs

馋奶兔 提交于 2020-04-06 19:01:45
这是一篇不错的博文,感谢分享。 http://blog.csdn.net/yhl_leo/article/details/66969915 ================================================================================================================================= 大家好,今天我要讲的内容是在深度学习的卷积神经网络中,如何减弱过拟合问题的相关研究,最近刚好在修改论文,就把相关的方法和技术整理出来,对于怎样选择和设计网络模型具有一定的指导性,希望对大家有帮助。 内容主要分为三个模块,首先对过拟合问题的产生原因、以及解决方向进行简单的介绍,然后会就不同的解决方案,讲解一些解决方法;最后是简单说一下自己的一些研究工作(最后一部分略)。 在讲过拟合问题前,先简单介绍一下偏差和方差权衡的问题,假设存在一组观测数据 x , y x,y ,如果存在一组理想的映射,使得每个观测值经过该映射后,能够与它对应的预测值一一对应,这就是识别、分类以及回归问题的本质,这里我们先不管怎么去优化这个理想的映射中的未知参数,我们也意识到对于观测数据,本身其实也是有噪声的,我们假设观测数据满足这样一个分布模式,也就是观测值经过理想的映射后还含有一个随机的高斯噪声项 ϵ ϵ

机器学习图解

孤街醉人 提交于 2020-04-06 07:32:52
机器学习图解 机器学习(Machine Learning)是计算机科学的一个方向。利用统计学的技巧,机器学习算法(Machine Learning Algorithms)能够自动学习并识别数据内的规律。凭着这些规律,算法便能作出高度准确的预测。 每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的。 算法公式挺费神,机器学习太伤人。任何一个刚入门机器学习的人都会被复杂的公式和晦涩难懂的术语吓到。但其实,如果有通俗易懂的图解,理解机器学习的原理就会非常容易。本文介绍根据这些图理解看机器学习算法。 机器学习最大的分支的监督学习和无监督学习,简单说数据已经打好标签的是监督学习,而数据没有标签的是无监督学习。从大的分类上看, 降维 和 聚类 被划在无监督学习, 回归 和 分类 属于监督学习。机器学习常用方法有10种 1) 回归 2) 分类 3) 聚类 4) 降维 5) 集成方法 6) 神经网络与深度学习 7) 迁移学习 8) 强化学习 9) 自然语言处理 10) 词嵌入 机器学习这个主题已经很普遍了,每个人都在谈论它,但很少有人能够透彻地了解它。当前网络上的一些机器学习文章晦涩难懂,理论性太强,或者通篇云里雾里地介绍人工智能、数据科学的魔力以及未来的工作等。 所以呢,本文作者

机器学习如何分类?

喜欢而已 提交于 2020-04-06 03:23:27
按照任务类型可分为: 回归模型 :例如预测明天的股价。 分类模型 :将样本分为两类或者多类。 结构化学习模型 :输出的不是向量而是其他 结构。 按照学习理论可分为: 监督学习 :学习的样本 全部 具有标签,训练网络得到一个最优模型。 无监督学习 :训练的样本 全部 无标签,例如 聚类样本。 半监督学习 :训练样本 部分 有标签。 强化学习 :智能体与环境进行交互获得 奖励 来进行训练的一种模式,环境不会判断是否正确,而是会不断的反馈信号来 评价 智能体的行为。 迁移学习 :运用已经训练好的模型对新的样本进行学习,主要是解决问题中样本过少的问题。 人工智能更多面试问题关注公众号: 我们都是码农 (allmanong),或者扫描下方二维码! 来源: oschina 链接: https://my.oschina.net/u/4386848/blog/3220632

机器学习如何分类?

大城市里の小女人 提交于 2020-04-06 01:46:18
按照任务类型可分为: 回归模型 :例如预测明天的股价。 分类模型 :将样本分为两类或者多类。 结构化学习模型 :输出的不是向量而是其他 结构。 按照学习理论可分为: 监督学习 :学习的样本 全部 具有标签,训练网络得到一个最优模型。 无监督学习 :训练的样本 全部 无标签,例如 聚类样本。 半监督学习 :训练样本 部分 有标签。 强化学习 :智能体与环境进行交互获得 奖励 来进行训练的一种模式,环境不会判断是否正确,而是会不断的反馈信号来 评价 智能体的行为。 迁移学习 :运用已经训练好的模型对新的样本进行学习,主要是解决问题中样本过少的问题。 人工智能更多面试问题关注公众号: 我们都是码农 (allmanong),或者扫描下方二维码! 来源: oschina 链接: https://my.oschina.net/u/4329790/blog/3220621

机器学习基础——机器学习概述

元气小坏坏 提交于 2020-04-05 20:06:30
一. 什么是机器学习 机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。 机器学习是一门多领域的 交叉学科 ,设计概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。                                                                            ——百度百科 二. 发展历程 三. 机器学习方法 1. 有监督学习 有监督学习分为分类和回归。 分类形象地说就像是做考试的选择题,在训练集中满足这个条件的一堆,满足那个条件的一堆.....,最后根据你给出的测试集的条件判断它是属于哪一堆; 回归形象地说就像是做考试的填空题,根据训练集里给出的数据来大致模拟出一个函数模型,最后将给的测试集数据代入来推测答案。 2. 无监督学习 无监督学习分为聚类等。 无监督学习就没有固定的答案和方法,说白了就是找规律,只要你言之有理就行。例如上面的例子,将训练集进行找规律分类,既可以把“玩具”按照形状分,也可以按照颜色分,也可以按照大小分,只要有共同点就行。 3. 半监督学习 半监督学习:是把监督和无监督结合,因为生活中监督学习比较少,所以使用两者结合。 将无类标签的简单聚类分:按形状,按大小,按颜色....

无监督学习与sklearn库

故事扮演 提交于 2020-03-30 22:40:19
一、无监督学习基础知识 利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习 有监督学习和无监督学习的最大区别在于 数据是否有标签 无监督学习最常应用的场景是 聚类(Clustering) 和 降维(Dimension Reduction) 二、聚类 聚类是根据数据的“相似性”将数据分为多类的过程。评估两个不同样本之间的“相似性”,通常使用的方法就是计算两个样本之间的“距离”。使用不同的方法计算样本间的距离会关系到聚类结果的好坏 1、欧氏距离 欧氏距离是最常用的一种距离度量方法,源于欧式空间中两点的距离 2、曼哈顿距离 曼哈顿距离也称作“城市街区距离”,类似于在城市之中驾车行驶,从一个十字路口到另一个十字路口的距离 3、马氏距离 马氏距离表示数据的协方差距离,是一种尺度无关的度量方式。马氏距离会先将样本点的各个属性标准化,再计算样本间的距离 4、夹角余弦 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。余弦值越接近于1,说明两个向量夹角越接近0度,表明两个向量越相似 5、sklearn库 scikit-learn库(简称sklearn库)提供的常用聚类算法函数包含在sklearn.cluster这个模块中,如:k-means,近邻传播算法,DBSCAN等。以同样的数据集应用于不同的算法,可能会得到不同的结果,算法所耗费的时间也不尽相同

数据挖掘与BI

穿精又带淫゛_ 提交于 2020-03-30 06:34:04
  应该如何完整地理解"数据挖掘"?"数据挖掘"的理论基础是什么?   图1表示的是:   现实中人类的社会和经济活动,总可以用数据(数字或者符号)来描述和记录;经过对这些数据的分析,就会产生信息(知识);用这些信息(知识)来指导实践,就可以做出相应的决策;这些决策又引发了新一轮的社会和经济活动。循环往复,生息不止。   那么数据仓库(DW)、商务智能(BI)和知识发现(KDD)又分别是什么呢?   图2中的虚线部分有两个含义。   第一是因为上述概念诞生初始,在DM的价值链上还是有所侧重的,数据仓库重在"建仓",数据挖掘和知识发现重在"加工",商务智能重在"应用"。虚线表示曾经拥有。   第二,如果不这样画,理论界、应用厂商会不答应,因为不管原来是做数据库的(IBM,Sybase,NCR,Oracle,Microsoft,etc),还是做统计分析软件的(SAS,Statistica,SPSS,etc),甚至是做报表工具的(BO,Brio,Cognos,etc),都拼命在延伸自己的价值链。   所以,干脆叫数据管理(也就是DM)好了,一统天下。   至于ERP,CRM等,说白了,还是个DM,只不过限制在了具体的社会经济活动上罢了。   六种挖掘武器   数据仓库的建设 和 数据挖掘建模 是DM价值链上的两大技术要点。数据挖掘从狭义的角度讲,只管从数据到知识这一段

kmeans++

筅森魡賤 提交于 2020-03-30 05:45:08
前一阵子有一个学弟问kmeans算法的初始中心点怎么选,有没有什么算法。我让他看看kmeans++,结果学弟说有地方没看懂。然后,他不懂的地方,我给标注了一下。 下面是网上的资料,我对画线的地方做了标注。 k-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。 wiki上对该算法的描述 如下: 从输入的数据点集合中随机选择一个点作为第一个聚类中心 对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x) 选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大 重复2和3直到k个聚类中心被选出来 利用这k个初始的聚类中心来运行标准的k-means算法 从上面的算法描述上可以看到,算法的关键是第3步,如何将D(x)反映到点被选择的概率上,一种算法如下: 先从我们的数据库随机挑个随机点当“种子点” 对于每个点,我们都计算其和最近的一个“种子点”的距离D(x)并保存在一个数组里,然后把这些距离加起来得到Sum(D(x))。 然后,再取一个随机值,用权重的方式来取计算下一个“种子点”。这个算法的实现是, 先取一个能落在Sum(D(x))中的随机值Random , 然后用Random -= D(x) ,直到其<=0,此时的点就是下一个“种子点”。 这个Random 可以这么取:

第十七节 K-means

喜你入骨 提交于 2020-03-27 16:12:50
sklearn PAI:from sklearn.cluster import KMeans 聚类的原理 评价指标:轮廓系数,一般[-1,1]之间,一般超过0-0.1聚类效果已经十分不错 from sklearn.cluster import KMeans # K-means PAI import pandas as pd from sklearn.decomposition import PCA import matplotlib.pyplot as plt from sklearn.metrics import silhouette_score # 轮廓系数API # 数据地址:https://www.kaggle.com/c/instacart-market-basket-analysis/data # 读取表 prior = pd.read_csv(r"E:\360Downloads\Software\降维案列数据\order_products__prior.csv") products = pd.read_csv(r"E:\360Downloads\Software\降维案列数据\products.csv") order = pd.read_csv(r"E:\360Downloads\Software\降维案列数据\order.csv") aisles = pd.read