聚类

CVPR 2020丨码隆科技提出跨越时空的样本配对,解决深度度量学习痛点

纵然是瞬间 提交于 2020-08-09 11:07:52
     本文介绍的是 CVPR 2020 Oral 论文《Cross-Batch Memory for Embedding Learning》,作者来自码隆科技。本篇论文解读首发于“码隆播报”公众号。    作者 | 码隆科技    编辑 | 丛 末      论文地址:https://arxiv.org/abs/1912.06798   开源地址:https://github.com/MalongTech/research-xbm   本篇论文提出了 XBM 方法,能够用极小的代价,提供巨量的样本对,为 pair-based 的深度度量学习方法取得巨大的效果提升。这种提升难例挖掘效果的方式突破了过去两个传统思路:加权和聚类,并且效果也更加简单、直接,很好地解决了深度度量学习的痛点。XBM 在多个国际通用的图像搜索标准数据库上(比如 SOP、In-Shop 和 VehicleID 等),取得了目前最好的结果。    1    背景和动机   难例挖掘是深度度量学习领域中的核心问题,最近有颇多研究都通过改进采样或者加权方案来解决这一难题,目前主要两种思路:   第一种思路是在 mini-batch 内下功夫,对于 mini-batch 内的样本对,从各种角度去衡量其难度,然后给予难样本对更高权重,比如 N-pairs、Lifted Struture Loss、MS Loss

Origin绘制散点图个性化设置散点颜色

感情迁移 提交于 2020-08-09 09:07:55
背景 在做聚类时,经常要对结果进行可视化,如对不同类别的点设置不同的颜色以达到更好的展示效果。如使用word2vec之后,采用t-sne对数据所做的聚类效果,如下图所示。 此图来源:http://www.360doc.com/content/19/0706/11/52645714_847036805.shtml 具体绘制流程 数据如下图所示: 其中,第1和2列为散点图的横坐标和纵坐标,第4列(D(Y)列)为数据点的标签,第5列(E(Y))为数据点的颜色标签。 选中数据表中的第1和第二列,点击PLot>Scatter。 可绘制下面的图形: 双击上面的图形,会出现Plot Details操作框,在此框内可以设置和颜色。如下图设置标签列。 如下图可以这是颜色。 最终,绘制结果如下图所示: 来源: oschina 链接: https://my.oschina.net/u/4273264/blog/4327369

amcl node.cpp

放肆的年华 提交于 2020-08-09 07:21:03
1.主函数 主函数主要作用是: 定义一个信号变量,管理节点 定义amclNode对象 int main(int argc, char** argv) { ros::init(argc, argv, "amcl"); ros::NodeHandle nh; // Override default sigint handler signal(SIGINT, sigintHandler); // Make our node available to sigintHandler amcl_node_ptr.reset(new AmclNode()); if (argc == 1) { // run using ROS input ros::spin(); } else if ((argc == 3) && (std::string(argv[1]) == "--run-from-bag")) { amcl_node_ptr->runFromBag(argv[2]); } // Without this, our boost locks are not shut down nicely amcl_node_ptr.reset(); // To quote Morgan, Hooray! return(0); } 2.amclNode对象的构造 1.有一个配置相关的递归互斥锁锁 2

大数据分析模型构建步骤

半世苍凉 提交于 2020-08-09 06:40:28
  我们知道做认识事情都有个流程顺序,正确的流程可以事半功倍,错误的流程往往会导致事情重新来做,越来越多的企业都实现了大数据营销推广。今天我们就来了解一下,大数据分析中的模型构建步骤。   大数据环境下的数据分析模型构建步骤   常用的数据挖掘方法主要是基于客户画像体系与结果,选取相关性较大的特征变量,通过分类模型、聚类模型、回归模型、神经网络和关联规则等机器算法进行深度挖掘。常用算法的基本内容如下:   1、分类和聚类   分类算法是极其常用的数据挖掘方法之一,其核心思想是找出目标数据项的共同特征,并按照分类规则将数据项划分为不同的类别。聚类算法则是把一组数据按照相似性和差异性分为若干类别,使得同一类别数据间的相似性尽可能大,不同类别数据的相似性尽可能小。分类和聚类的目的都是将数据项进行归类,但二者具有显著的区别。分类是有监督的学习,即这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。而聚类则是无监督的学习,不需要对数据进行训练和学习。常见的分类算法有决策树分类算法、贝叶斯分类算法等;聚类算法则包括系统聚类,K-means均值聚类等。   2、回归分析   回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,其主要研究的问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。按照模型自变量的多少

“16万高中生没高考,用统计模型估成绩”引争议,IB为啥没做错

烈酒焚心 提交于 2020-08-09 05:06:56
      大数据文摘投稿作品    作者:钱兵   上周,针对“国际文凭组织(IB)取消高考后,通过一个统计模型给16万全球高中生估分”的新闻,文摘菌编译发布了一篇伯克利机器学习研究者Ishan反对的声音,他认为这一做法是对算法的滥用,放大了机器学习的“歧视性”,并且呼吁考生和家长反对这一做法。   文章发布后也引发了激烈讨论,不少机器学习从业者为IB鸣不平,文摘菌今天也发布一篇不同的见解,来自中国电信研究院AI研发中心研发总监钱兵老师的投稿,听一听他为什么觉得,利用统计模型估分虽然不完美,但是多方权衡后一个比较实际的方案。   上周无意刷到“大数据文摘”发表的一篇文章《16万高中生今年没高考,用统计模型估成绩》。   看完之后,对于 从事数据分析 的我,血压有点上升。   冷静几天来分享下我的观点。    回顾该文的内容   该文介绍了在今年受到疫情影响,全球受认可度最高的基础教育组织“国际文凭(IB)在今年5月被迫 取消了期末统考 ,但考虑到16万在读高中生需要类似高考成绩来申请大学,计划 通过模型预测 每位学生的成绩。   至于这个模型如何来建立,文章中并未提及到相关具体信息,只提到“考生最终得分 由IB联合一个技术公司一起 ,根据学生课程作业、老师预测成绩和其他历史数据,通过模型分析给出,并在7月5日准时公布。”      该文作者针对国际文凭提出的这样计划,坚决反对

ArcGis拓扑的那些事儿(拓扑应用过程一)

回眸只為那壹抹淺笑 提交于 2020-08-09 02:12:40
上一篇我讲了拓扑需要知道的一些基础知识,这篇我讲拓扑的建立过程,下一篇再给大家讲讲怎样去修改拓扑中的错误! 在这里我给大家一点建议, 数据生产中的拓扑检查是一项非常严谨的操作过程,最好不要使用一些不成熟的插件来进行拓扑。 具体什么原因,我就不说了,说多了都是泪 ,大家在做项目时候就会懂了 , 一失足成千古恨啊! 哈哈,不说废话了,下面开始正文。 当我们在生产数据时有可能会重复的复制同一个图斑到同一个图层中,造成重复面,也可能在修改图斑边界过程中造成与相邻图斑重合,也有可能在分割图斑中造成连续面中出现缝隙,也可能在修改过程中造成与某个控制界线边界不一致的情况等等。 (emmm.....错误类型很多,大致常见的就这几种,别的就不写啦!) 以上看看就好 ,主要是下面内容大家多了解了解就成! 一:创建地理数据库(GDB/MDB)我以GDB为大家举例。 打开ArcMap或者ArcCatalog 新建GDB数据库 新建要素数据集 设置自己需要的容差 导入自己需要拓扑检查的文件 新建拓扑 输入与数据集相同的拓扑容差 选择需要参加拓扑的图层 确定图层等级 添加规则 检查规则有无遗漏 拓扑最终建立之前检查容差、图层等级与质检规则有无错误 等待拓扑的建立 验证所建立的拓扑 把拓扑结果拖入ArcMap中 最终的拓扑结果 以上就是建立拓扑的过程,在这里小编在说一下在建立拓扑当中需要注意的几点! 1

07-noderepr 图机器学习之图表征学习

狂风中的少年 提交于 2020-08-08 15:52:39
网络中的机器学习 节点分类 链接预测 机器学习的生命圈需要特征工程 网络的特征学习——特征向量 embedding network embedding的意义 节点的表征 节点的相似度衡量→网络相似度衡量 网络信息编码,生成节点表征 用途:异常检测,属性预测,聚类,关系预测 例子:deepwalk 难度:当前的深度学习视为序列或网格数据而设计的,但网络结构比这些更复杂,没有固定的空间结构,没有固定的顺序,是动态的,并且有多类特征 Embedding Nodes 假设我们有图G,V是节点集合,A是邻接矩阵, 将节点编码,编码后的向量计算得到的相似度与原网络的一致 因此需要定义一个编码器,以及计算节点相似度的函数,并优化encoder 浅层encoding,有一个大矩阵,存储各类节点的向量,encoder只是look-up,类似于word embedding 常见的方法:deepwalk,node2vec,transE 如何定义节点相似性 例子:若两个节点的embedding相似,那么在物理结构上,他们:相连?有相同邻居?相似的结构角色?等 随机游走→node embedding 随机游走:从一个节点出发,随机选择一个邻居节点,游走到该节点,再重复上述步骤。经过的节点组成的序列即为图的random walk 公式表示节点u,v在random walk中共同出现的概率 步骤: 1.

斯坦福Machine Learning with Graphs 学习笔记(第一讲)

百般思念 提交于 2020-08-08 15:42:06
作者: 林夕 本文长度为 2900字 ,建议阅读 9分钟 本文为大家介绍图网络的基本概念、网络的应用以及图的结构。 目录 一、Why Networks 二、网络的应用 2.1 应用领域 三、图的结构 3.1 网络表示的选择 3.2 点的度(Degree) 3.3 图的表示方式 邻接矩阵(Adjacency Matrix) 边列表(Edge list) 邻接列表(Adjacency list) 3.4 图的连通性 参考资料 最近我们小组开始整理CS224W机器学习图网络的一些笔记,这是第一课对应的PPT。 课程相关PPT链接: http://web.stanford.edu/class/cs224w/slides/01-intro.pdf 一、Why Networks 第一部分简单介绍下关于图网络的一些基本定义,应用和意义。 网络的定义: 网络是描述一系列交互实体的复杂系统的一种通用语言。 网络(Network)和图(Graph)的一些区别: 网络 通常指真实的系统,eg.互联网、社交网络、信息网络、代谢网络、常用的表达有网络、节点、关系等; 图是网络的数学表达方式 ,比如互联网图谱、社交图谱、知识图谱、场景图、分子图(分子预测模型)。常用表达有图、顶点、边等词; 网络的概念比图的概念总体来看会大一点 ,但是总的来说network和graph区别也是比较模糊的,在实际中

聚类算法——DBSCAN算法原理及公式

余生颓废 提交于 2020-08-08 13:09:35
聚类的定义 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。聚类算法是无监督的算法。 常见的相似度计算方法 闵可夫斯基距离Minkowski/欧式距离 在上述的计算中,当p=1时,则是计算绝对值距离,通常叫做曼哈顿距离,当p=2时,表述的是欧式距离。 杰卡德相似系数(Jaccard) 杰卡德相关系数主要用于描述集合之间的相似度,在目标检测中,iou的计算就和此公式相类似 余弦相似度 余弦相似度通过夹角的余弦来描述相似性 Pearson相似系数 相对熵(K-L距离) 相对熵的相似度是不对称的相似度,D(p||q)不一定等于D(q||p)。 聚类的基本思想 给定一个有N个对象的数据集,划分聚类的技术将构造数据的K个划分,每个划分代表一个簇,K<=n。也就是说,聚类将数据划分为k个簇,而且这k个划分满足下列条件: 每个簇至少包含一个对象, 每一个对象属于且仅属于一个簇。 具体的步骤为,对于给定的k,算法首先给出一个初始的划分方法。以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。 密度聚类 密度聚类方法的指导思想是,只要一个区域中的点的密度大于某个阈值,就把它加到与之相近的聚类中去。这类算法能够克服基于距离的算法只能发现“类圆形”的聚类的缺点,可以发现任意形状的聚类,且对噪声数据不敏感

2019研究生数学建模(汽车工况建立)--形成报告及代码

只谈情不闲聊 提交于 2020-08-08 12:25:54
比赛开始的时间与我所要面临的开题有一定的时间冲突, 因此选择一个最为简单(个人认为), 比较容易快点出结果的题目--汽车工况的建立. 主要的工作: 进行汽车工况的聚类划分(本文主要以此为主) 本文的结构为:题目要求-基本报告-实现代码 题目要求: 汽车行驶工况 (Driving Cycle)又称车辆测试循环,是描述汽车行驶的速度-时间曲线(如图1、2,一般总时间在1800秒以内,但没有限制标准,图1总时间为1180秒,图2总时间为1800秒),体现汽车道路行驶的运动学特征,是汽车行业的一项重要的、共性基础技术,是车辆能耗/排放测试方法和限值标准的基础,也是汽车各项性能指标标定优化时的主要基准。目前,欧、美、日等汽车发达国家,均采用适应于各自的汽车行驶工况标准进行车辆性能标定优化和能耗/排放认证。 本世纪初,我国直接采用欧洲的NEDC行驶工况(如图1)对汽车产品能耗/排放的认证,有效促进了汽车节能减排和技术的发展。近年来,随着汽车保有量的快速增长,我国道路交通状况发生很大变化,政府、企业和民众日渐发现以NEDC工况为基准所优化标定的汽车,实际油耗与法规认证结果偏差越来越大,影响了政府的公信力(譬如对某型号汽车,该车标注的工信部油耗6.5升/100公里,用户体验实际油耗可能是8.5-10升/100公里)。另外,欧洲在多年的实践中也发现NEDC工况的诸多不足,转而采用世界轻型车测试循环