无监督学习

【cs224w】Lecture 3

拜拜、爱过 提交于 2020-04-08 20:33:50
目录 Network Motifs Configuration Model Graphlets How to Find Motifs and Graphlets Structural Roles 转自本人: https://blog.csdn.net/New2World/article/details/105291956 大量真实网络都有一个规律,即这些网络都是由一些 building block 构成,类似 Kronecker 图有大量的重复结构。而我们需要一种度量方式来衡量某个结构在图中的显著性。因此需要引入 motif 和 graphlet 这两个概念。 这一部分我还有一些概念没完全理解,所以在最后记录了一些问题等待以后回来解决。也欢迎有理解了的朋友帮忙解惑。 Network Motifs 这里实在无法确定 motif 的准确翻译是什么,干脆不翻译了。但它是什么东西还是得搞清楚的:在图中大量重复的模式被称为 motif。这个定义包含了三个要点 大量,就是多,比随机图多 重复,还是多 模式,即规模小的导出图 [1] 我们为什么需要这个 motif ?首先,既然这个概念的定义表明它在网络中大量存在,说明这个 motif 揭示了这个网络的一些普遍规律,比如食物链中的互利共生关系或竞争关系。同时我们可以依据这个规律预测一些我们可能还没有发现的网络中隐含的关系。 知道了 motif

无监督学习算法

本秂侑毒 提交于 2020-04-07 14:50:36
本文首发自公众号: RAIS ,点击直接关注。 前言 本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。 无监督学习算法 就是无监督的一种学习方法,太抽象,有一种定义(这种定义其实不够准确,无监督和监督之间界限模糊)是说如果训练集有标签的就是有监督学习,无标签的就是无监督,没有标签,意味着不知道结果。有监督学习算法可以知道一堆图片它们是狗的照片,无监督学习算法只能知道它们是一类,但这一类叫什么就不知道了。 无监督学习算法没有标签,因此训练的也往往是没有明确目标的,对于结果也可能不好说是好是坏,在本质上来说,无监督学习算法是一种概率统计的方法,在数据中可以发现一些潜在的结构。这么说还是不够清楚,举几个例子说明无监督学习方法有什么作用: 用户分类:马云说每天晚上有五十万的人会浏览淘宝,什么也不买,他也不知道为什么,那既然有如此大的流量,不能浪费,进行精准推荐,会不会效果很好呢?在庞大的用户群中,找到和你很相似的用户,也说不出来哪里相识,反正就是相似,他买过的东西你还没买过,推荐给你,你会不会就冲动了呢? 发现异常:对于网站来说,防止 DDOS 攻击就需要在巨大的请求中找到那些非法请求(广义上的非法,并非单纯指参数非法),进行丢弃不进行服务,这可能就需要无监督学习算法,找到那些和正常用户不一样的请求,也说不出来哪里不一样,反正就是不一样,直接抛弃请求

机器学习如何分类?

喜欢而已 提交于 2020-04-06 03:23:27
按照任务类型可分为: 回归模型 :例如预测明天的股价。 分类模型 :将样本分为两类或者多类。 结构化学习模型 :输出的不是向量而是其他 结构。 按照学习理论可分为: 监督学习 :学习的样本 全部 具有标签,训练网络得到一个最优模型。 无监督学习 :训练的样本 全部 无标签,例如 聚类样本。 半监督学习 :训练样本 部分 有标签。 强化学习 :智能体与环境进行交互获得 奖励 来进行训练的一种模式,环境不会判断是否正确,而是会不断的反馈信号来 评价 智能体的行为。 迁移学习 :运用已经训练好的模型对新的样本进行学习,主要是解决问题中样本过少的问题。 人工智能更多面试问题关注公众号: 我们都是码农 (allmanong),或者扫描下方二维码! 来源: oschina 链接: https://my.oschina.net/u/4386848/blog/3220632

机器学习如何分类?

大城市里の小女人 提交于 2020-04-06 01:46:18
按照任务类型可分为: 回归模型 :例如预测明天的股价。 分类模型 :将样本分为两类或者多类。 结构化学习模型 :输出的不是向量而是其他 结构。 按照学习理论可分为: 监督学习 :学习的样本 全部 具有标签,训练网络得到一个最优模型。 无监督学习 :训练的样本 全部 无标签,例如 聚类样本。 半监督学习 :训练样本 部分 有标签。 强化学习 :智能体与环境进行交互获得 奖励 来进行训练的一种模式,环境不会判断是否正确,而是会不断的反馈信号来 评价 智能体的行为。 迁移学习 :运用已经训练好的模型对新的样本进行学习,主要是解决问题中样本过少的问题。 人工智能更多面试问题关注公众号: 我们都是码农 (allmanong),或者扫描下方二维码! 来源: oschina 链接: https://my.oschina.net/u/4329790/blog/3220621

无监督学习与sklearn库

故事扮演 提交于 2020-03-30 22:40:19
一、无监督学习基础知识 利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习 有监督学习和无监督学习的最大区别在于 数据是否有标签 无监督学习最常应用的场景是 聚类(Clustering) 和 降维(Dimension Reduction) 二、聚类 聚类是根据数据的“相似性”将数据分为多类的过程。评估两个不同样本之间的“相似性”,通常使用的方法就是计算两个样本之间的“距离”。使用不同的方法计算样本间的距离会关系到聚类结果的好坏 1、欧氏距离 欧氏距离是最常用的一种距离度量方法,源于欧式空间中两点的距离 2、曼哈顿距离 曼哈顿距离也称作“城市街区距离”,类似于在城市之中驾车行驶,从一个十字路口到另一个十字路口的距离 3、马氏距离 马氏距离表示数据的协方差距离,是一种尺度无关的度量方式。马氏距离会先将样本点的各个属性标准化,再计算样本间的距离 4、夹角余弦 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。余弦值越接近于1,说明两个向量夹角越接近0度,表明两个向量越相似 5、sklearn库 scikit-learn库(简称sklearn库)提供的常用聚类算法函数包含在sklearn.cluster这个模块中,如:k-means,近邻传播算法,DBSCAN等。以同样的数据集应用于不同的算法,可能会得到不同的结果,算法所耗费的时间也不尽相同

机器学习算法

谁说我不能喝 提交于 2020-03-28 07:40:58
转载自: http://www.cnblogs.com/tornadomeet   朴素贝叶斯:   有以下几个地方需要注意:   1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。   2. 计算公式如下:      其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总和。   3. 如果 中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace光滑, 分母加k的原因是使之满足全概率公式)。    朴素贝叶斯的优点:   对小规模的数据表现很好,适合多分类任务,适合增量式训练。    缺点 :   对输入数据的表达形式很敏感。   决策树:   决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它

Kmeans原理与实现

早过忘川 提交于 2020-03-22 04:45:44
原理 http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html 实现 http://www.cnblogs.com/zjutzz/p/5924762.html 无监督学习之K-均值算法分析与MATLAB代码实现 转载 https://blog.csdn.net/liweibin1994/article/details/77898341 前言 K-均值是一种无监督的聚类算法。首先我们要知道什么是无监督,无监督就是说在数据集中,数据是没有标签的。在有监督的数据集中,数据的形式可能是这样: { ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , . . . , ( x ( m ) , y ( m ) ) } {(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}。而在无监督的数据集中,数据的形式是: { x ( 1 ) , x ( 2 ) , . . . , x ( m ) } {x(1),x(2),...,x(m)}。所谓的标签,就是有没有y。 无监督学习一般用来做什么呢?比如市场分割,也许在你的数据库中有很多用户的数据,你希望将用户分成不同的客户群,这样对不同类型的客户你可以分别提供更合适的服务。再比如 图片压缩 ,假如图片有256种颜色

6分钟了解所有机器学习模型

强颜欢笑 提交于 2020-03-15 01:46:23
所有机器学习模型都可以分为 有监督 的或 无监督 的。如果模型是监督模型,则将其再分类为回归模型或分类模型。我们将介绍这些术语的含义以及下面每个类别中对应的模型。 监督学习模型 监督学习涉及基于示例输入-输出对学习将输入映射到输出的功能。 例如,如果我有一个包含两个变量的数据集,即年龄(输入)和身高(输出),那么我可以实现一个监督学习模型,以根据一个人的年龄预测其身高。 监督学习示例 重申一下,在监督学习中,有两个子类别:回归和分类。 回归模型 在回归模型中,输出是连续的。以下是一些最常见的回归模型类型。 -线性回归 线性回归示例 线性回归的概念就是简单地找到一条最适合数据的直线。线性回归的扩展包括多元线性回归(例如,找到最佳拟合的平面)和多项式回归(例如,找到最佳拟合的曲线)。 -决策树 图片来自Kaggle 决策树是一种普遍应用的模型,常用于运筹学、战略计划和机器学习。上方的每个正方形称为一个节点,你拥有的节点越多,决策树(通常)将越准确。做出决策的决策树的最后节点称为树的叶子。决策树直观且易于构建,但在准确性方面稍有不足。 -随机森林 随机森林是一种基于决策树的整体学习技术。随机森林涉及使用原始数据通过“自举法”(Bootstrapping)得到的数据集创建多个决策树,并在决策树的每个步骤中随机选择变量的子集。然后,模型选择每个决策树的所有预测的模式。这有什么意义呢?通过依靠

8.机器学习之聚类算法

倾然丶 夕夏残阳落幕 提交于 2020-03-14 01:43:39
分类 是在一群已经知道类别标号的样本中,训练一种分类器,让其能够对某种未知的样本进行分类,分类算法属于一种有监督的学习。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。分类的目的就是使用分类对新的数据集进行划分,其主要涉及分类规则的准确性、过拟合、矛盾划分的取舍等。 ———————————————— 聚类 是在一群未知类别标号的样本上,用某种算法将他们分成若干类别,这是一种无监督学习。给定一组数据点,我们可以用聚类算法将每个数据点分到特定的组中,理论上属于同一组的数据点应该有相似的属性和/或特征,而属于不同组的数据点应该有非常不同的属性和/或特征。所以在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。 聚类是一种将数据点按一定规则分群(分组)的机器学习技术。其主要研究数据间逻辑上或物理上的相互关系。聚类分析本身不是一个特定的算法,而是要解决的一般任务。它可以通过各种算法来实现,这些算法在理解群集的构成以及如何有效地找到它们方面存在显着差异。由聚类所组成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此类似,与其他簇中的对象相异。其分析结果不仅可以揭示数据间的内在联系与区别,还可以为进一步的数据分析与知识发现提供重要依据。 监督学习: 当我们根据一组给定的预测因子变量或自变量去预测一个目标变量时

无监督学习之聚类1——Kmeans

吃可爱长大的小学妹 提交于 2020-03-11 05:25:47
Kmeans算法分析31省市消费水平 #coding=utf-8 import numpy as np from sklearn.cluster import KMeans def loadData(filepath): fr = open(filepath, 'r+') lines = fr.readlines() retData = [] retCityName = [] for line in lines: items = line.strip().split(",")#以逗号为分割符读取数据 retCityName.append(items[0]) #将城市名加到城市名数据列表中 retData.append([float(items[i]) for i in range(1,len(items))]) #将数据中的其他data转化为float后加到retData中 return retData,retCityName if __name__ == '__main__': data,cityName = loadData('F:\data\city.txt') km = KMeans(n_clusters=4) #分成的簇的数目 label = km.fit_predict(data)#计算簇中心及为簇分配序号 expenses = np.sum(km.cluster