聚类

OpenSelfSup: Open-MMLab自监督表征学习代码库

拥有回忆 提交于 2020-11-20 07:08:27
本文转载自知乎,已获作者 授权转载。 https://zhuanlan.zhihu.com/p/148782886 前言 自监督的表征学习领域近几个月来获得了显著的突破,特别是随着Rotation Prediction, DeepCluster, MoCo, SimCLR等简单有效的方法的诞生,大有超越有监督表征学习的趋势。 然而,相信做这个领域的研究者都深有感触: 1)自监督任务复杂而多样,不同方法各有各的专用训练代码,难以结合、复用和改进; 2)评价方案不统一,不同的方法难以在公平环境下对比; 3)动辄百万千万的训练数据量,训练效率是个大问题。 针对这些问题,我们(香港中文大学多媒体实验室和南洋理工大学)开源了一套统一的自监督学习代码库:OpenSelfSup, 链接如下: https://github.com/open-mmlab/OpenSelfSup OpenSelfSup 统一的代码框架和模块化设计 OpenSelfSup使用PyTorch实现,支持基于分类、重建、聚类、memory bank、contrastive learning的多种自监督学习框架, 目前收录了Relative Location, Rotation Prediction, DeepCluster, OnlineDeepCluster, NPID, MoCo, SimCLR

基于激光雷达的目标检测与跟踪文献阅读

心已入冬 提交于 2020-11-19 12:03:12
Instant Object Detection in Lidar Point Clouds 传感器:VLP-64 主要工作:完整的激光雷达语义环境感知方案,通过将点云投影到地面栅格图,按照点的密度和最高高度、最大高度差,将点云分为建筑物表面、低矮物体、较高物体,而后按照点云的密度变化将点云进行聚类,再讲点云按照最大面积的方向,投影为90*90的深度图,通过CNN进行分类,最后一步是按照环境的语义信息进行分类结果的纠正,修正点云聚类等造成的错误。 数据集为: 需要联系作者获取密码方可下载 Pedestrian Recognition Using High-definition LIDAR 发表于2011的IEEE会议论文 文章主要是在三维点云中进行行人检测,主要关键部分有以下两点: 特征提取:提出了Z方向的分块点云密度作为特征,将点云块的反射强度作为特征算子的输入值,考虑了反射强度的信息,对于较远的目标,集合信息较弱的情况下,效果提升明显. 将之前提取的特征向量作为输入,采用SVM算法进行分类,文章的效果提升明显. The slice feature and the distribution of the reflection intensities are proposed to improve the recognition performance at a long

干货 :使用Spark进行大规模图形挖掘(附链接)

元气小坏坏 提交于 2020-11-18 14:46:18
翻译:陈丹 校对:王雨桐 本文 约4700字 ,建议阅读 15 分钟 本文为大家介绍了多种图挖掘工具,并运用Spark为大家展示了一个标签传播算法LPA构建图的实例。 本教程分为两部分: 第1部分:无监督学习图 (https://towardsdatascience.com/large-scale-graph-mining-with-spark-750995050656) 第2部分(就是本文!) : 如何运用神奇的图。我们将讨论标签传播,Spark GraphFrame和结果。 下文可回顾示例图和笔记: https://github.com/wsuen/pygotham2018_graphmining 在第1部分,我们看到了如何使用图来解决无监督的机器学习问题,因为社区是集群。我们可以利用节点之间的边作为相似性或相关性的指标,特征空间中的距离可用于其他类型的聚类。 本文将深入探讨社区检测的方式。我们构建和挖掘一个大型网络图,学习如何在Spark中实现标签传播算法(LPA)的社区检测方法。 通过标签传播检测社区 尽管有许多社区检测技术,但本文仅关注一种:标签传播。有关其他方法的概述,我推荐Santo Fortunato的“图形中的社区检测”(https://arxiv.org/pdf/0906.0612.pdf)。 Raghavan,Usha Nandini

1、西瓜书笔记:绪论

别等时光非礼了梦想. 提交于 2020-11-17 14:08:48
学习周志华的机器学习随笔 第一章:绪论 模型:泛指从数据中学得的结果 1.2基本术语 进行机器学习需要有数据,记录的集合称为数据集。 记录,是关于一个事件或对象的描述,也称为示例或样本。 样本作为事物,有其属性,属性上的取值称为属性值,属性张成的空间称为属性空间。 训练模型,需要有标记(label)的数据,这种数据称为样例。 y是标记的集合,称为标记空间(label space)或输出空间。 模型建成后,对其进行预测的过程称为“测试”,被测试的样本称为“测试样本”。 预测离散值的学习任务,例如预测好瓜坏瓜,称为分类,同时”分类“还分为二分类和多分类。 预测连续值的学习任务,称为回归。 预测任务的实质是希望通过对训练集进行学习,从而可以建立一个从输入空间X到输出空间Y的映射。 聚类学习:通过学习没有标记的数据集,帮助我们了解数据的内在规律。按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不再同一个簇内的数据对象的差异性也尽可能的大。 学习模型适用于新样本的能力,称为泛化能力。 1.3假设空间 假设空间:在学习过程中,由所有假设组成的空间。 版本空间:与训练集一致的假设集合。 1.4归纳偏好 奥卡姆剃刀原则:若有多个假设与观察一致,则选择最简单的那个。 来源: oschina 链接: https://my.oschina

DBSCAN聚类

跟風遠走 提交于 2020-11-16 00:25:25
物以类聚,人以群分,平常我们把人和物进行分类,今天来讲一讲如何通过 DBSCAN 用数据把样本进行聚类。 1. DBSCAN 定义 DBSCAN (Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的 聚类算法 。与K均值聚类和层次聚类不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的 空间数据库 中发现任意形状的聚类。 2. DBSCAN 的原理 2.1 DBSCAN 中几个常见的定义 Ε邻域 : 以某个点为中心,半径为E画圆,围成的区域称为该点的E邻域 核心对象 : 如果某点E邻域内的样本点数大于等于 MinPts (一般为自己设定大于1的正整数),则该点为核心对象 直接密度可达 : 如果p为核心对象, q在p的E邻域中,称q从对象p直接密度可达, 注意 p不一定从对象q直接密度可达,除非q也是核心对象。 密度可达 : 对于样本集合D,给定一串样本点 {p1,p2….pn} ,p= p1,q= pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。 密度相连 : 存在样本集合D中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相联。 图1 模拟DBSCAN算法生成的三个簇 在图1中,设定 MinPts =4,图中蓝色的点是

使用机器学习和Python对约会资料进行排序

て烟熏妆下的殇ゞ 提交于 2020-11-14 22:37:32
作者|Marco Santos 编译|Flin 来源|towardsdatascience 在无休止地浏览成百上千个交友档案,却没有一个与之匹配之后,人们可能会开始怀疑这些档案是如何在手机上出现的。所有这些配置文件都不是他们要找的类型。他们已经刷了好几个小时甚至几天,都没有发现任何成功。他们可能会问: “为什么这些约会应用程序会向我展示那些我知道我不适合的人呢?” 在很多人看来,用来显示约会档案的约会算法可能已经失效,他们厌倦了在应该匹配的时候向左滑动。每个交友网站和应用程序都可能利用自己的秘密交友算法来优化用户之间的匹配。但有时它会让人觉得它只是在向其他人展示随机用户,而没有任何解释。我们如何才能更多地了解这个问题,并与之作斗争?可以用一种叫做机器学习的方法。 我们可以使用机器学习来加速约会应用程序中用户之间的配对过程。使用机器学习,配置文件可以潜在地与其他类似的配置文件聚集在一起。这将减少互不兼容的配置文件的数量。从这些集群中,用户可以找到更像他们的其他用户。 集群配置文件数据 使用上面文章中的数据,我们能够成功地获得convenient panda DataFrame中的集群约会配置文件。 在此DataFrame中,每一行都有一个配置文件,最后,在将Hierarchical Agglomerative Clustering( https://www.datanovia.com

数据挖掘相关知识介绍

半城伤御伤魂 提交于 2020-11-14 17:04:29
1、数据挖掘定义 把数据库中大量数据背后隐藏的重要信息抽取出来,然后为公司创造很多潜在的利润,针对这种海量数据库中挖掘数据信息的技术称为数据挖掘(DM)。 2、数据挖掘的分类 按照数据库种类:关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘。 按知识类别来分:关联、特征描述、分类分析、聚类分析、趋势、偏差分析。 按知识抽象层次:一般文化知识、初级知识、多层次知识。 3、数据挖掘常用技术 人工神经网络:仿照生理神经网络结构的非线性预测模型,通过学习模式识别。 决策树:代表决策集的树形结构。 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 紧邻算法:将数据集合中每一个记录进行分类的方法。 规则推导:从统计意义上对数据进行规则寻找和推导。 4、数据挖掘和数据仓库的关系 数据挖掘的关键在于通过访问正确、完整、集成的数据,才能进行深层次的分析,寻求有益的信息。数据仓库是提供数据的源头,并且数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果两者结合起来可以实现数据的有效联结,可以给数据挖掘带来便利和功能。 5、数据挖掘技术的应用过程 确定挖掘对象:要清晰定义挖掘对象、认清数据挖掘的目标。 准备数据:根据确定的挖掘对象,然后搜索所有与业务对象有关的内部和外部数据

竞赛总结:新冠期间饿了么骑士行为预估

删除回忆录丶 提交于 2020-11-13 09:29:59
智慧物流挑战赛 赛题介绍 饿了么拥有几十万外卖员,几百万商家,每天外卖订单几千万,服务几亿用户。具体统计每天饿了么外卖员(蓝骑士)行驶的距离累计可以绕地球400圈以上,这就是阿里巴巴本地生活今天的服务规模。 面对新型肺炎疫情,饿了么和广大商家一起,全力组织防护用品供给,平抑价格,增加骑士运力,持续实施最高等级的卫生安全举措,对骑手、餐箱、配送车辆、站点等消毒措施已全面升级,并进行专项督查。 在这些骑士背后,有一套智能调度系统,采用大数据平衡算法,实现自动化派单。 阿里巴巴本地生活聚焦新冠疫情期间的骑士行为,邀请开发者为提高平台的物流运营效率贡献一份力量。 赛题奖励 Top5选手将获得天池奖牌、证书,以及精美礼品。 一等奖:1名,机械键盘 二等奖:2名,Kindle阅读器 三等奖:2名,天猫精灵 阿里校招绿色通道 :初复赛TOP20团队有机会直投简历,简历直投邮箱。 外卖员绿色通道: 优秀的参赛选手可体验当地骑士工作。 赛题任务 在饿了么的配送场景下,骑士在外卖配送中的决策行为主要分为 到店取单 , 到用户处送单两种行为 。骑士在某一时刻会接收到分配给他的配送订单,同时骑士身上也背负着之前分配给他还未完成的订单。骑士会根据当前身上背负所有订单状态和自己所处的位置来决策下一步的任务。 本项比赛的任务就是需要根据骑士历史的决策信息,结合当前骑士所处的状态来预测骑士的下一步决策行为。

DNS和ICMP常见隐蔽隧道工具流量解析

浪子不回头ぞ 提交于 2020-11-12 21:33:51
DNS隧道 0 1 原理 在进行 DNS 查询时,如果查询的域名不在 DNS 服务器本机的缓存中,就会访问互联网进行查询,然后返回结果,如果互联网上有一台定制的服务器,那么依靠 DNS 协议即可进行数据包的交换。从 DNS 协议角度来看,这样的操作只是在一次次的查询某个特定的域名并得到解析结果,但其本质问题是,预期的返回结果应该是一个 IP ,而事实上返回的可以使任意字符,包括加密的 C&C 指令。 DNS 隧道根据实现方式大致可分为两种: 直连: 用户端直接和指定的目标 DNS 服务器建立连接,然后将需要传输的数据编码封装在 DNS 协议中进行通信。这种方式的优点是具有较高速度,但蔽性弱、易被探测追踪的缺点也很明显。另外直连方式的限制比较多,如目前很多的企业网络为了尽可能的降低遭受网络攻击的风险,一般将相关策略配置为仅允许与指定的可信任 DNS 服务器之间的流量通过。 中继隧道: 通过 DNS 迭代查询而实现的中继 DNS 隧道,这种方式及其隐秘,且可在绝大部分场景下部署成功。但由于数据包到达目标 DNS 服务器前需要经过多个节点的跳转,数据传输速度和传输能力较直连会慢很多 。 这两种功方法虽然在工作原理上存在差异,但是从流量上看都是DNS协议,但是实际工程中也需要注意,旁路采集的方式可能会影响到你最终能否采集到的完整的通信日志,例如如果采用记录dns解析的方法,则可能漏过upd

直播 | 北京邮电大学助理教授王啸:网络嵌入的最新进展

余生长醉 提交于 2020-11-11 19:50:57
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。 网络是建模真实世界中复杂数据的一种常用模式, 网络嵌入(网络表示学习)已经成为当前学术界与工业界处理网络的重要手段之一。 本期 AI Drive,我们邀请到北京邮电大学计算机学院助理教授王啸,为大家带来 网络嵌入的最新进展:结构、性质和应用 的专题直播。对本期主题感兴趣的小伙伴,11 月 10 日(周二)晚 7 点,我们准时相约 PaperWeekly B 站直播间。 直播信息 网络嵌入的一个基本问题是如何在嵌入过程中考虑网络的结构与性质,本次报告将首先探讨同质图卷积神经网络中节点的属性结构及异质图中的元路径结构所带来的影响,进而介绍动态环境下如何有效刻画同质图的演化过程和异质图嵌入的增量学习过程,最后介绍其在推荐系统和深度聚类中的应用。 本次分享的具体内容有: 多通道图卷积神经网络; 异质图注意力网络; 时序图嵌入模型; 动态异质图增量学习模型; 推荐系统和深度聚类应用 嘉宾介绍 王啸 / 北京邮电大学助理教授 王啸,现任北京邮电大学计算机学院助理教授 ,研究方向为网络嵌入、图神经网络、数据挖掘与机器学习