聚类

论文阅读笔记(十九)【ITIP2017】:Super-Resolution Person Re-Identification With Semi-Coupled Low-Rank Discriminant Dictionary Learning

此生再无相见时 提交于 2020-02-12 16:25:23
Introduction (1)问题描述: super resolution(SP)问题:Gallery是 high resolution(HR),Probe是 low resolution(LR)。 (2)当前存在的问题: ① 当前的半耦合(semi-coupled)矩阵学习是解决SR复原,而不是直接进行行人重识别; ② 行人图片存在噪声,直接使用半耦合矩阵学习无法很好的刻画特征空间。 (3)Contribution: ① 提出一个新的半耦合低秩判别矩阵学习方法(semi-coupled low-rank discriminant dictionary learning approach,SLD 2 L),该方法从图像特征中学习得到高低分辨率字典对,将低分辨率特征映射到高分辨率特征; ② 提出一个多视角 SLD 2 L 方法,对不同类别的特征学习出不同的特征对。 Brief Review (1)SR问题中的耦合字典训练: 目标函数: 其中 x i 和 y i 为HR和LR的一对,且 ,γ 是平衡因子,D x 和 D y 为耦合字典,K 为原子数量,N 为训练样本数量,a 为编码系数。 (2)行人重识别问题中的半监督耦合字典学习(SSCDL): 假定 x = {x 1 , x 2 , ..., x n }, y = {y 1 , y 2 , ..., y m },目标函数: 其中

贝叶斯机器学习路线图

无人久伴 提交于 2020-02-12 00:25:16
这是一份贝叶斯机器学习路线图, 正在不断更新中. 路线图由简短的介绍配以相应的学习资源组成, 读者不一定要按顺序学习, 可以直接定位到自己需要的地方. 很多时候, 我们希望自学某个领域的知识, 学习能力是不差的, 但苦于不知该学哪些, 从何学起, 看什么书/视频好? 各个概念/知识点之间是怎样的联系? 这份路线图是为解决以上问题而生的, 对于学习贝叶斯机器学习应该十分有帮助. 若您发现错漏, 欢迎评论指正! 也希望有更多的人愿意分享自己所在领域的"学习路线图"! (注意: 文中部分资源链接需要科学上网方可打开) 本文目录结构如下: 核心主题 中心问题 参数估计 模型比较 非贝叶斯方法 最大似然 正则化 EM算法 基本推断算法 MAP估计 Gibbs采样 马尔科夫链蒙特卡洛(MCMC) 变分推断(Variational inference) 模型 混合高斯 因子分析 隐马尔科夫模型(HMM) 贝叶斯模型比较 贝叶斯信息准则(Bayesian information criterion) 拉普拉斯近似(Laplace approximation) 进阶主题 模型 逻辑回归(Logistic regression) 贝叶斯网络(Bayesian networks) Latent Dirichlet allocation(LDA) 线性动态系统(Linear dynamical

几种聚类算法的对比实验

蹲街弑〆低调 提交于 2020-02-09 18:49:11
几种聚类算法的对比实验 聚类方法是属于无标签的无监督学习方法。其他常见的无监督学习还有密度估计,异常检测等。聚类就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别(在聚类算法中称为簇),使类别内的数据相似度高,二类别间的数据相似度低,我们可以使用聚类分析从我们的数据中获得一些有价值的见解,本文我们将研究几种常见的聚类算法,并讨论他们的优缺点。 kmeans from copy import deepcopy import numpy as np import pandas as pd import matplotlib matplotlib . use ( 'TkAgg' ) from matplotlib import pyplot as plt plt . rcParams [ 'figure.figsize' ] = ( 16 , 9 ) plt . style . use ( 'ggplot' ) # 导入数据集 data = pd . read_csv ( 'xclara.csv' ) # print(data.shape) # data.head() # 将csv文件中的数据转换为二维数组 f1 = data [ 'V1' ] . values f2 = data [ 'V2' ] . values # 按行的方式计算两个坐标点之间的距离 def

机器学习15:聚类DBSCAN

旧城冷巷雨未停 提交于 2020-02-07 00:44:02
聚类DBSCAN 原理 𝛆邻域 :给定对象半径𝜀内的区域称为该对象的𝜀邻域。 核心对象 :如果给定 𝜀 邻域内的样本点数大于等于Minpoints,则该对象为核心对象。 直接密度可达 :给定一个对象集合D,如果p在q的𝜀邻域内,且q是一个核心对象,则我们说对象p从q触发是直接密度可达的(directly density-reachable)。 密度可达 :集合D,存在一个对象链p1,p2…pn,p1=q,pn=p,pi+1是从pi关于𝜀和Minpoints直接密度可达,则称点p是从q关于𝜀和Minpoints密度可达的。 密度相连 :集合D存在点o,使得点p、q是从o关于𝜀和Minpoints密度可达的,那么点p、q是关于𝜀和Minpoints密度相连的。 DBSCAN算法思想 1.指定合适的𝜀和Minpoints。 2.计算所有的样本点,如果点p的𝜀邻域里有超过Minpoints个点,则创建一个以p为核心点的新族。 3.反复寻找这些核心点直接密度可达(之后可能是密度可达)的点,将其加入到相应的簇,对于核心点发生“密度相连”状况的簇,给予合并。 4.当没有新的点可以被添加到任何簇时,算法结束。 缺点 : • 当数据量增大时,要求较大的内存支持I/O消耗也很大。 • 当空间聚类的密度不均匀、聚类间距差相差很大时,聚类质量较差。 DBSCAN和K-MEANS比较 : •

05-spectral 图机器学习之谱分解

一个人想着一个人 提交于 2020-02-07 00:12:51
目标: 1)创建图的表征矩阵 2)分解:计算矩阵的特征值和特征向量;基于一个或多个特征值,将每个点表示成低维的表征 3)分组:基于新的表征,进行聚类 例如,二分图中如何确定好的分类?类间差异大,类内差异小 最小割集 考虑: 1)团外的连接性 2)团内的连接性 评价方式: 团间的连接性与每个团的密度相关 spectral graph partitioning 谱图分割 无向图G的邻接矩阵A x是n维的特征向量,可认为是G中每个节点的label或者value 那么Ax等到的结果的意义是? yi是节点i的邻居节点的label的和 通过yi生成新的x value 谱图理论: 分析G的表征矩阵的spectrum spectrum的意义: 图的特征向量xi,(由特征值大小排序而得) 一个例子:假设G中的所有节点的度都有d,G是连通的。那么,G的特征值和特征向量是? d是A的最大特征值 若G不是完全连通的 矩阵表征 邻接矩阵:对称矩阵,有n个特征值,特征向量是实数且是正交的 度矩阵: 拉普拉斯矩阵:L=D-A 对称矩阵 λ=λ1=0 ?? 特征值为非负实数 特征向量是实数且永远正交 对于对称矩阵M,λ2的值由一公式可定 为xi--xj的平方和 找到最优的x 发现最优的割法 谱聚类算法: 1)图的表征矩阵 2)矩阵的特征值和特征向量;基于特征向量生成每个店的低维向量 3)分组 例子 k-way

GMM模型和EM算法

感情迁移 提交于 2020-02-06 09:02:23
文章目录 1.聚类 聚类 最大似然估计 提出问题 混合高斯模型(简单化) 2.GMM模型 多项分布 GMM 3.EM算法 GMM下的EM算法 数值解释 原理解释 KL EM 应用于GMM EM总结 1.聚类 聚类 最大似然估计 提出问题 混合高斯模型(简单化) 2.GMM模型 多项分布 GMM 3.EM算法 GMM下的EM算法 数值解释 原理解释 KL EM 应用于GMM EM总结 来源: CSDN 作者: LotusQ 链接: https://blog.csdn.net/qq_30057549/article/details/103655508

GANFuzz:A GAN-based industrial network protocol fuzzing framework

烂漫一生 提交于 2020-02-04 19:03:56
GANFuzz:A GAN-based industrial network protocol fuzzing framework 1.简介 1.GANFuzz,提出了一种新的测试用例生成方法,并在此基础上构建了一个模糊框架。 2.为了提高代码覆盖率和测试深度,提出了三种从不同维度对协议消息进行分类的聚类策略,利用这三种策略,所学习的生成模型可以生成更为多样化和格式良好的测试用例。 3.在实验中,使用GANFuzz原型测试了几个Modbus-TCP模拟器,成功地揭示了一些新的缺陷和已知的问题。 2.背景知识 GAN RNN作为generator CNN作为discriminator 3.方法 3.1 步骤 1.对msg进行聚类。在给定一个真实的协议msg集作为训练数据的情况下,我们采用三种聚类策略来提供三种方法来对数据进行分类。对于每一种策略,我们所关注的特征和功能w.r.t协议消息是不同的。它允许我们从不同的维度进行模糊处理。它有助于提高代码覆盖率和测试深度。 2.学习协议语法。我们使用生成对抗网络和SeqGan算法对将协议语法学习问题进行建模为估计生成模型的过程。通过深度学习训练,生成模型从真实的协议消息中自动揭示协议语法。 3.生成测试用例。学习的生成模型能够生成类似于真实协议消息的序列。利用生成模型可以生成模糊测试用例。 3.2 聚类msg NoClustering

1.3:聚类

允我心安 提交于 2020-02-03 22:26:26
K-means聚类 K-means的应用 数据介绍: 现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八个主 要变量数据,这八个变量分别是:食品、衣着、家庭设备用品及服务、医疗 保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已 有数据,对31个省份进行聚类。 实验目的: 通过聚类,了解1999年各个省份的消费水平在国内的情况。 技术路线:sklearn.cluster.Kmeans 示例代码 1 import numpy as np 2 from sklearn.cluster import KMeans 3 4 5 def loadData(filePath): 6 fr = open(filePath, 'r+') 7 lines = fr.readlines() 8 retData = [] 9 retCityName = [] 10 for line in lines: 11 items = line.strip().split(",") 12 retCityName.append(items[0]) 13 retData.append([float(items[i]) for i in range(1, len(items))]) 14 return retData, retCityName 15 16 17 if __name__ ==

【机器学习笔记day28】5.2. k-means案例分析+手写数字数据上K-Means聚类的演示

…衆ロ難τιáo~ 提交于 2020-02-01 22:13:36
文章目录 5.2. k-means案例分析 k-means案例分析 手写数字数据上K-Means聚类的演示 5.2. k-means案例分析 k-means案例分析 手写数字数据上K-Means聚类的演示 from sklearn . metrics import silhouette_score from sklearn . cluster import KMeans def kmeans ( ) : """ 手写数字聚类过程 :return: None """ # 加载数据 ld = load_digits ( ) print ( ld . target [ : 20 ] ) # 聚类 km = KMeans ( n_clusters = 810 ) km . fit_transform ( ld . data ) print ( km . labels_ [ : 20 ] ) print ( silhouette_score ( ld . data , km . labels_ ) ) return None if __name__ == "__main__" : kmeans ( ) 来源: CSDN 作者: 汪雯琦 链接: https://blog.csdn.net/qq_35456045/article/details/104136147

深度聚类评估指标(Purity、NMI、RI、ARI)

做~自己de王妃 提交于 2020-02-01 08:30:01
深度聚类评估指标(Purity、NMI、ARI) 深度聚类评估指标(Purity、ACC、NMI、RI、ARI) Purity 定义 例子 NMI 定义 例子 RI 定义 例子 一个求混淆矩阵的 Python 实现 ARI 定义 例子 深度聚类评估指标(Purity、ACC、NMI、RI、ARI) Purity, NMI, RI 等上述指标均需要给定 truth label 才能对 cluster label 进行评价,但是均不要求后者的类标与前者一致。那什么时候需要进行类标签的 best map 呢?例如,我们需要对预测结果和真实值之间统计聚类正确的比例时就需要进行最佳类标的重现分配,这样才能保证统计的正确。 Purity 定义 例子 NMI 定义 例子 RI 定义 例子 一个求混淆矩阵的 Python 实现 % matplotlib inline import numpy as np import matplotlib . pyplot as plt label = [ 0 , 0 , 1 , 0 , 1 , 0 , 0 , 1 ] pred = [ 0 , 0 , 0 , 0 , 0 , 1 , 1 , 1 ] bins = np . array ( [ 0 , 0.5 , 1 ] ) # 表示x,y轴每个 bin 的坐标范围 tn , fp , fn , tp = plt