聚类

一个网站拿下机器学习优质资源!搜索效率提高 50%

风格不统一 提交于 2020-08-11 16:49:45
红色石头的个人网站: 红色石头的个人博客-机器学习、深度学习之路 ​ www.redstonewill.com 现在大家平时会遇到很多不错的机器学习资源,但是大多数情况下,资源比较分散,不方便集中管理和查阅。更重要的是往往很难找到一个系统完整的资源导航,形成系统的学习路线,方便搜索。 重磅!今天小编在网上“闲逛”的时候发现了一个超级棒的机器学习优质资源分类导航。至少节约大家 50% 的时间。 下面详细给大家介绍一下! 首先,放上这个机器学习优质资源分类导航的网站: https://madewithml.com/topics/ ​ madewithml.com 该网站整理收集了机器学习最佳的资源,并持续更新中。如果你正在寻找当前的热门内容,请查看主页。如果你在没有看到想要的主题,你可以使用顶部的搜索栏来搜索它。 该网站总共收集了 10 大主题内容,分别是: 框架 算法 自然语言处理 机器视觉 综合 概念 数据、模型和训练 全栈 工业 收藏 下面,分别来看一下! 1. 框架 这部分主要收集了一些编程用的框架,例如最常见的 Python、Numpy、TensorFlow 等。点开相应的框架,就会跳转到比较全面的关于该框架的资源。 例如 Python: 除了 Getting started,还有 Tutorials、Toolkits、Research、Recent 等,内容真的太丰富了。

目标检测算法-YOLO算法纵向对比理解

余生长醉 提交于 2020-08-11 14:23:42
目标检测算法-YOLO算法纵向对比理解 DeepLearning的目标检测任务主要有两大类:一段式,两段式 其中两段式主要包括RCNN、FastRCNN、FasterRCNN为代表, 一段式主要包括YOLO,SSD等算法 由于一段式直接在最后进行分类(判断所属类别)和回归(标记物体的位置框框),所以现在一段式大有发展。 YOLO v1 论文地址: You Only Look Once: Unified, Real-Time Object Detection YOLOv1是one-stage detector鼻祖、real-time detector鼻祖。 所谓one-stage,即不需额外一个stage来生成RP,而是直接分类回归出output: YOLOv1直接将整张图片分成 S×S的小格子区域,每个小格子区域生成 B个bbox(论文中B=2),每个bbox用来预测中心点落在该格的物体。但是每个格子生成的所有B个bbox共享一个分类score YOLOv1最后一层的输出是一个S×S×(B∗5+C) 的tensor 其中,S为每维的格子段数,B为每格生成的bbox数,C为前景类别数。 YOLO v1包括24个conv layer + 2 fc layer YOLOv1采用了山寨版的GoogleNet作为backbone,而不是VGG Net; 在第24层时

变分(图)自编码器不能直接应用于下游任务(GAE, VGAE, AE, VAE and SAE)

我只是一个虾纸丫 提交于 2020-08-11 10:39:50
    自编码器是无监督学习领域中一个非常重要的工具。最近由于图神经网络的兴起,图自编码器得到了广泛的关注。笔者最近在做相关的工作,对科研工作中经常遇到的:自编码器(AE),变分自编码器(VAE),图自编码器(GAE)和图变分自编码器(VGAE)进行了总结。如有不对之处,请多多指正。     另外,我必须要强调的一点是:很多文章在比较中将自编码器和变分自编码器视为一类,我个人认为,这二者的思想完全不同。自编码器的目的不是为了得到latent representation(中间层),而是为了生成新的样本。我自己的实验得出的结论是,变分自编码器和变分图自编码器生成的中间层 不能直接 用来做下游任务(聚类、分类等),这是一个坑。 自编码器(AE)     在解释图自编码器之前,首先理解下什么是自编码器。自编码器的思路来源于传统的PCA,其目的可以理解为非线性降维。我们知道在传统的PCA中,学习器学得一个子空间矩阵,将原始数据投影到一个低维子空间,从未达到数据降维的目的。自编码器则是利用神经网络将数据逐层降维,每层神经网络之间的激活函数就起到了将"线性"转化为"非线性"的作用。自编码器的网络结构可以是对称的也可以是非对称的。我们下面以一个简单的四层对称的自编码器为例,全文代码见最后。    (严格的自编码器是只有一个隐藏层,但是我在这里做了个拓展,其最大的区别就是隐藏层以及神经元数量的多少

机器学习:Mean Shift聚类算法

馋奶兔 提交于 2020-08-11 10:36:51
本文由ChardLau原创,转载请添加原文链接 https://www.chardlau.com/mean-shift/ 今天的文章介绍如何利用 Mean Shift 算法的基本形式对数据进行聚类操作。而有关 Mean Shift 算法加入核函数计算漂移向量部分的内容将不在本文讲述范围内。实际上除了聚类, Mean Shift 算法还能用于计算机视觉等场合,有关该算法的理论知识请参考 这篇文章 。 Mean Shift 算法原理 下图展示了 Mean Shift 算法计算飘逸向量的过程: Mean Shift 算法的关键操作是通过感兴趣区域内的数据密度变化计算中心点的漂移向量,从而移动中心点进行下一次迭代,直到到达密度最大处(中心点不变)。从每个数据点出发都可以进行该操作,在这个过程,统计出现在感兴趣区域内的数据的次数。该参数将在最后作为分类的依据。 与 K-Means 算法不一样的是, Mean Shift 算法可以自动决定类别的数目。与 K-Means 算法一样的是,两者都用集合内数据点的均值进行中心点的移动。 算法步骤 下面是有关 Mean Shift 聚类算法的步骤: 在未被标记的数据点中随机选择一个点作为起始中心点center; 找出以center为中心半径为radius的区域中出现的所有数据点,认为这些点同属于一个聚类C。同时在该聚类中记录数据点出现的次数加1。

Louvain社区发现算法

半城伤御伤魂 提交于 2020-08-11 10:18:56
Louvain算法主要针对文献[1]的一种实现,它是一种基于模块度的图算法模型,与普通的基于模块度和模块度增益不同的是,该算法速度很快,而且对一些点多边少的图,进行聚类效果特别明显,本文用的画图工具是Gephi,从画图的效果来说,提升是很明显的。 文本没有权威,仅是个人工作中的一点总结与思考,能力与时间有限,理解不免有些浅薄,仅做参考。也可能有理解偏差或错误,如有发现,希望不吝指教,多谢! 由于算法中的公式太多,不方便用markdown编辑,所以就将编排好的文档转成图片,如需完整的文档请点击这里下载。 来源: oschina 链接: https://my.oschina.net/u/4353795/blog/4282396

Random Forest可以用来做聚类吗?

牧云@^-^@ 提交于 2020-08-11 07:39:04
问题引入 随机森林是一个常用到的模型了,大家知道随机森林可以用来做回归,也可以用来做分类,那么随机森林能否用来做聚类呢?是个有趣的问题,让我们一起探讨下。 问题解答 其实随机森林是可以用来做聚类的,对于没有标签的特征,随机森林通过生成数据来实现聚类。其主要的步骤如下: 第一步 :生成假冒数据和临时标签。 我们先给原数据集增加一列,名叫“标签”,原生数据每一行的标签都是“1”。下面生成一些假数据,假数据的每一列都是从原生数据中根据其经验分布随机产生的,人工合成的数据的标签是“0”。举个例子, 标签 身高 体重 年龄 1 184 158 25 1 170 162 37 1 165 132 45 1 110 78 9 1 145 100 14 1 ... ... ... 上面是原生数据,下面我们开始制造虚假数据 标签 身高 体重 年龄 1 184 158 25 1 170 162 37 1 165 132 45 1 110 78 9 1 145 100 14 1 ... ... ... 0 170 100 9 0 110 162 37 0 165 158 14 每行假数据的每一个元素都是从它所在的那一列中随机抽取的,列和列之间的抽取是独立的。这样一来,人工合成的假数据就破坏了原有数据的结构性。现在我们的数据集和标签就生成完了。 第二步 :用该数据集训练Random

用无监督学习生成吊炸天Spotify播放列表

爱⌒轻易说出口 提交于 2020-08-11 07:23:47
在本系列之前的博文里(见: https:// towardsdatascience.com/ tagged/music-by-numbers ),我们探索了音乐串流巨头Spotify如何建立算法,仅基于波形就能描述任何歌曲的音乐特征(见: https:// developer.spotify.com/d ocumentation/web-api/reference/tracks/get-audio-features/ )。 这些算法可以计算一些明显的音乐成分,如歌曲的速度和调子。然而,他们也有更为细微的度量项目:歌曲有多欢快?它冷淡还是高能?它是不是舞曲? 为了展示该工作如何进行,我用一些电子乐内容建立了一个播放列表,从Kendrick Lamar到Black Sabbath,从Beatles到Billie Eilish都含在内,当然也有Despacito。 让我们看看Spotify是怎样用多种音频特征指标给这些歌曲分类的。这些指标的完整描述见: https:// towardsdatascience.com/ analysing-the-greatest-show-on-earth-e234f611e110 。 用有稳定、不间断节拍的歌曲被认为是更适合跳舞——因此Rap歌曲如Real Slim Shady和 Humble此项得分较高。 正如我们在前篇博文里注意到的

大数据技术包含哪些内容

戏子无情 提交于 2020-08-11 06:34:24
  大数据之所以受到了广泛的关注,一个重要的原因就是大数据开辟了新的价值领域,这一点是非常关键的。新的价值领域就会打造一系列生态体系,而生态体系又会孕育出大量不同的商业模式,而这个过程也会伴随着大量的创新,所以当前基于大数据的创业项目也非常多。大数据让互联网(物联网)上源源不断的数据拥有了价值,让整个社会对于互联网有了新的认知。大数据技术的相关岗位需求也越来越大,而今天我们就简单来了解一下,大数据技术都包含了哪些内容。   大数据技术都包含了哪些内容   一、数据采集   ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。   二、数据存取   关系数据库、NOSQL、SQL等。   三、基础架构   云存储、分布式文件存储等。   四、数据处理   自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguageUnderstanding),也称为计算语言学(ComputationalLinguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI

今日头条算法原理(全)

只谈情不闲聊 提交于 2020-08-11 04:11:08
3分钟了解今日头条推荐算法原理 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法,从2012年9月第一版开发运行至今,已经经过四次大的调整和修改。 今日头条委托资深算法架构师曹欢欢博士,公开今日头条的算法原理,以期推动整个行业问诊算法、建言算法;通过让算法透明,来消除各界对算法的误解,并逐步推动整个行业让算法更好的造福社会。 以下为《今日头条算法原理》全文。 今日头条资深算法架构师曹欢欢: 本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。 一、系统概览 推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。第一个维度是内容。头条现在已经是一个综合内容平台,图文、视频、UGC小视频、问答、微头条,每种内容有很多自己的特征,需要考虑怎样提取不同内容类型的特征做好推荐。第二个维度是用户特征。包括各种兴趣标签,职业、年龄、性别等,还有很多模型刻划出的隐式用户兴趣等。第三个维度是环境特征。这是移动互联网时代推荐的特点,用户随时随地移动,在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。结合三方面的维度,模型会给出一个预估,即推测推荐内容在这一场景下对这一用户是否合适。 这里还有一个问题

沃尔玛的产品知识图谱

那年仲夏 提交于 2020-08-11 04:02:07
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念