聚类

最全数学各个分支简介

纵饮孤独 提交于 2020-10-12 11:31:10
来源:算法数学俱乐部 编辑 ∑Gemini 数论 人类从学会 计数 开始就一直和自然数 打交道了,后来由于实践的需要,数的概念进一步扩充,自然数被叫做正整数,而把它们的相反数叫做负整数,介于正整数和负整数中间的中性数叫做0。 它们和起来叫做整数。 对于整数可以施行加、减、乘、除四种运算,叫做四则运算。其中加法、减法和乘法这三种运算,在整数范围内可以毫无阻碍地进行。也就是说,任意两个或两个以上的整数相加、相减、相乘的时候,它们的和、差、积仍然是一个整数。但整数之间的除法在整数范围内并不一定能够无阻碍地进行。 人们在对整数进行运算的应用和研究中,逐步熟悉了整数的特性。比如,整数可分为两大类—奇数和偶数(通常被称为单数、双数)等。利用整数的一些基本性质,可以进一步探索许多有趣和复杂的数学规律,正是这些特性的魅力,吸引了古往今来许多的数学家不断地研究和探索。 数论这门学科最初是从研究整数开始的,所以叫做整数论。后来整数论又进一步发展,就叫做数论了。确切的说,数论就是一门研究整数性质的学科。 数论的发展简况 自古以来,数学家对于整数性质的研究一直十分重视,但是直到十九世纪,这些研究成果还只是孤立地记载在各个时期的算术著作中,也就是说还没有形成完整统一的学科。 自我国古代,许多著名的数学著作中都关于数论内容的论述,比如求最大公约数、勾股数组、某些不定方程整数解的问题等等。在国外

从自监督学习主流方法、最新工作进展,看未来前景研究方向

时间秒杀一切 提交于 2020-10-10 00:28:37
来源: 机器学习算法与自然语言处理 本文约 6000字 ,建议阅读 10分钟。 找到合适的辅助任务,对于自监督学习是最需要解决的问题。 本文作者来自东北大学,他通过整理自监督学习的一系列工作,把主流方法分成三大类,方便大家更全面的了解自监督学习的定义、方法、用途。 与此同时,文中也穿插着几大主流方法的最新工作进展,现在正在探索自监督学习未来前景研究方向的同学,也不妨借鉴一二,说不定能找到灵感哦~ 学习的范式 我们首先来回顾下机器学习中两种基本的学习范式,如图所示,一种是监督学习,一种是无监督学习。 监督学习与无监督学习[1] 监督学习利用大量的标注数据来训练模型,模型的预测和数据的真实标签产生损失后进行反向传播,通过不断的学习,最终可以获得识别新样本的能力。而无监督学习不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。 无监督学习中被广泛采用的方式是自动编码器(autoencoder): 深度自编码器[6] 编码器将输入的样本映射到隐层向量,解码器将这个隐层向量映射回样本空间。我们期待网络的输入和输出可以保持一致(理想情况,无损重构),同时隐层向量的维度大大小于输入样本的维度,以此达到了降维的目的,利用学习到的隐层向量再进行聚类等任务时将更加的简单高效。 对于如何学习隐层向量的研究

12款最好用的数据挖掘工具

我们两清 提交于 2020-10-09 05:25:40
数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。 数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。 免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见的是Python。数据挖掘中通常涉及到四种任务: 分类: 将熟悉的结构概括为新数据的任务 聚类: 在数据中以某种方式查找组和结构的任务,而不需要在数据中使用已注意的结构。 关联规则学习: 查找变量之间的关系 回归: 旨在找到一个函数,用最小的错误来模拟数据。 下面列出了用于数据挖掘的软件工具 数据挖掘工具 1.Rapid Miner Rapid Miner,原名YALE又一个学习环境,是一个用于机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。 它使得实验可以由大量的可任意嵌套的操作符组成,这些操作符在XML文件中是详细的,并且是由快速的Miner的图形用户界面完成的。最好的是用户不需要编写代码。它已经有许多模板和其他工具,让我们可以轻松地分析数据。 2. IBM SPSS

一行命令跑评测,港中文MMLab开源自监督表征学习代码库

感情迁移 提交于 2020-10-09 05:10:42
   自监督表征学习发展迅速,但也存在诸多问题。近日,香港中文大学多媒体实验室(MMLab)和南洋理工大学的研究者开源了一套统一的自监督学习代码库 OpenSelfSup。    前言   近几个月来自监督表征学习领域获得了显著突破,特别是随着 Rotation Prediction、DeepCluster、MoCo、SimCLR 等简单有效的方法的诞生,自监督表征学习大有超越有监督表征学习的趋势。   然而,做这个领域的研究者都深有感触:1)自监督任务复杂而多样,不同方法各有各的专用训练代码,难以结合、复用和改进;2)评价方案不统一,不同的方法难以在公平环境下对比;3)动辄百万千万的训练数据量,训练效率是个大问题。   针对这些问题,香港中文大学多媒体实验室(MMLab)和南洋理工大学的研究者最近开源了一套统一的自监督学习代码库:OpenSelfSup。   开源地址: https://github.com/open-mmlab/OpenSelfSup    OpenSelfSup    统一的代码框架和模块化设计   OpenSelfSup 使用 PyTorch 实现,支持基于分类、重建、聚类、memory bank、contrastive learning 的多种自监督学习框架,目前收录了 Relative Location、Rotation Prediction

深度学习目标检测系列之YOLO9000

我只是一个虾纸丫 提交于 2020-10-07 05:10:14
1.闲言 在正式的学习之前,我喜欢先放飞一下自我。我觉得技术就是用来聊的,找个酒馆,找些大神,咱们听着音乐一起聊起来。所以我特别希望能把自己的文字口语化,就像玩一样。就像古代那些说书人一样,萧远山和慕容博相视一笑,王图霸业,血海深仇,尽归尘土。这是我向往的一种表达方式,但是我现在还达不到那个境界,只能尽力而为吧。 2.YOLOV2 1.十个改造点 yolov1提升了目标检测的速度,但是在MAP方面却掉了上去。所以说铁打的大神,流水的模型,他们自然会想尽各种办法来解决这个问题。在我看来这就好像程序员写bug一样,到头来总是要改的。所以yolov2可以分为两个部分,第一部分是对MAP提升所做的努力,第二部分是对原来模型的优化,当然是在保证检测速度的前提下。 下面的10个点,是V2的大神们做出的努力。这意味着什么,速度的提升?准确率的提升?模型的泛化能力提升?对,但是更重要的我觉得是工作量的体现,年终的结算。有时候看paper的时候,我们觉得这些大神们都跟圣人一样。他们做出的所有努力都是要造福社会,都是为了推动AI视觉的进一步发展。其实他们也是人,也会有来自各方面的限制,也会有自己的私心,一些小小的任性和种种生而为人而不能的无奈。所以读paper就是在和大神们对话,一边说着你真牛逼,一边在心里面想着我一定要超越你。 下来我们来解释一下,如果说模型预测出来的结果不是很令人满意

适用于特殊类型自然语言分类的自适应特征谱神经网络

允我心安 提交于 2020-10-07 04:55:07
点击上方蓝字关注我们 适用于特殊类型自然语言分类的自适应特征谱神经网络 王一峰, 孙丽茹, 崔良乐, 赵毅 哈尔滨工业大学(深圳)理学院,广东 深圳 518055 摘要 : 计算机算力的提升使得深度学习算法迅速发展,然而由于古诗文特殊的语序、用词、结构、句式、文法结构、表达方式,深度学习模型需要消耗更多的算力进行特征提取等工作,因此并未在这一领域取得广泛的应用。为此,提出了一种新型的神经网络结构——自适应特征谱神经网络。该算法有效减少了运算时间,可以自适应地选择对分类最有用的特征,形成最高效的特征谱,得到的分类结果具有一定的可解释性,而且由于其运行速度快、内存占用小,因此非常适用于学习辅助软件等方面。以此算法为基础,开发了相应的个性化学习平台。该算法使古诗文分类的准确率由93.84%提升到了99%。 关键词 : 自适应特征谱 ; 神经网络 ; 文本分类 ; 古诗词 ; 拉普拉斯矩阵 论文引用格式: 王一峰, 孙丽茹, 等.适用于特殊类型自然语言分类的自适应特征谱神经网络[J].大数据, 2020, 6(4):92-104. WANG Y F, SUN L R, et al. Adaptive feature spectrum neural networks for special types of natural language classification [J].Big

K-means聚类算法及python代码实现

╄→尐↘猪︶ㄣ 提交于 2020-10-07 03:26:41
K-means 聚类算法( 事先数据并没有类别之分!所有的数据都是一样的 ) 1、概述 K-means 算法是 集简单和经典于一身的 基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算法认为类簇是由距离靠近的对象组成的,因此把得到 紧凑且独立的簇作为最终目标。 2、核心思想 通过 迭代 寻找 k 个 类簇 的一种划分方案,使得用这 k 个 类簇 的均值来代表相应各类样本时所得的总体误差最小。 k 个聚类具有以下特点: 各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开 。 k-means 算法的基础是 最小误差平方和准则 , 其代价函数是: 式中, μc(i) 表示第 i 个聚类的均值。 各 类簇 内的样本越相似,其与该类均值间的误差平方越小,对所有类所得到的误差平方求和,即可验证分为 k 类时,各聚类是否是最优的。 上式的代价函数无法用解析的方法最小化,只能有迭代的方法。 3、算法步骤图解 下图展示了对 n 个样本点进行 K-means 聚类的效果,这里 k 取 2 。 4、算法实现步骤 k-means 算法是将样本聚类成 k 个簇( cluster ),其中 k 是用户给定的 ,其求解过程非常直观简单,具体算法描述如下: 1) 随机选取 k 个聚类质心点 2) 重复下面过程直到收敛 { 对于每一个样例 i ,计算其应该属于的类:

ACM MM2020 | 爱奇艺提出卡通人脸识别的基准数据集

為{幸葍}努か 提交于 2020-10-07 02:52:24
摘要 : 本文提出了一个卡通人脸识别的基准数据集i Cart oon Face ,并设计了卡通和真人多任务域自适应策略来提高卡通人脸识别的性能。 论文链接: https://arxiv.org/pdf/1907.13394.pdf 导读: 通过人脸识别技术对视频中的人物信息进行结构化分析,目前已在爱奇艺公司的多个产品中应用,例如“奇观”、“只看他”等,给用户带来了良好的交互体验。为了推动了人脸识别技术的快速发展,爱奇艺在 2018年 、 2019年 相继举办了多模态人物识别竞赛。与此同时,学术界、工业界对卡通人物识别领域的研究较少,为了促进相关研究和带来良好的用户体验,本文提出了 iCartoonFace 卡通识别数据集和对相关算法进行了研究,并成功落地到爱奇艺“奇观”、“逗芽”等产品中。 背景 : 近年来,伴随着卡通产业的迅猛发展,卡通视频呈现出爆炸性增长。而实现对这些卡通视频智能理解的第一步就是需要识别出这些视频里面的卡通人物身份信息。同时伴随着人脸识别技术的发展,人物识别精度大幅提升,在Labeled Faces in the Wild(LFW)等图片数据集上,人脸识别精度甚至超过了人类的识别能力。然而,对卡通人物身份的识别,却鲜有研究,相关的数据集也比较少,如下表1。对于深度学习来说,这些已有的卡通识别数据集存在着数据量较小、噪声比例较大的问题。因此构建一个大规模

excel插件开发,Smartbi免费版安装流程

痞子三分冷 提交于 2020-10-07 01:27:34
excel插件开发,Smartbi免费版安装流程 自动安装 1、安装Microsoft .Net Framework 4.0 Full 2、获取安装介质 插件安装包不包含在标准的产品安装包中,若需对插件进行学习或使用,请到官网进行下载。 3、点击安装介质,弹出安装界面如图: 4、点击 下一步 ,配置安装路径: 5、点击 下一步,检测是否有插件正在被使用: 6、点击 安装,进行安装: 7、安装完成。 插件升级 Excel插件支持在线更新的方式。 系统检测更新 设计、维护用户在每次使用Excel插件登录的时候,会检测服务器插件版本是否有更新; 若服务器上Excel插件有了新版本,则会提示更新,按提示进行更新即可。 手动检测更新 点击工具栏的 更新 按钮,进行更新: 安装环境要求 关于电子表格插件的安装环境要求,详情请参考官网产品在线文档或咨询客服· 关于Smartbi Smartbi强大的数据分析能力,人人可用的自助式BI。简便的操作,专业化的要求不高。可以大范围的应用。使得Smartbi在BI领域独树一帜。 1、下载安装 下载和安装很简单,官网上直接下载。启动软件时会加载数据日志,但是所有操作都在web端。 2、学习教程 激活时会发送一个学习资料包,有功能教学视频,还有学习帮助文档,下载激活时大家留心,记得收藏。除此之外,还有个学习交流的论坛,提问回答好积极,对技术宅来讲是极好的。

一个优秀的商业分析师是如何炼成的

左心房为你撑大大i 提交于 2020-10-06 09:03:58
本文4500字,阅读完毕需10分钟 这是一个9年分析老兵的心路独白,供大家参考吐槽。 绕了一圈,还是干回数据分析 曾经数据分析师是一个被严重低估的岗位。 在陈老师12年前本科毕业的时候,做分析是件相当没前途的事。我本人读的是应用数学系。那时候一流的学生做金融,二流的去宝洁、IBM这种五百强,三流的进各大银行三大运营商的IT部,四流的做软件开发,不入流的人才去做什么数据分析。在那个年代,腾讯还是一个年收入30亿的小公司,百度刚刚崭露头角,阿里还不知道在哪里。华为,好像华为和数据没啥关系…… 在这种大环境下,陈老师果断的读了研究生。不争气的转了管理学。进入文科生的世界以后才发现,原来本科读个数学专业是这么霸气,想水个管理学/经济学的论文简直太eas y。 只需要找到一篇底稿,修改一下研究假设,派个问卷,然后几十行代码往lisrel里一丢,就基本大功告成。如果输出模型检验值通不过,还能通过数据加权,合成变量等手段合理合法的改数据,改到OK为止。 以上做法虽然为正儿八经学习的同学们所不耻(确实很无耻,同学们勿学),但是却是应付差事的利器。 类似的还有利用SPSS做因子、聚类分析,用Eviews做经济学模型,虽然过程经不起推敲,结果却看起来像那么回事。应付个差事,这就足够了。 那个年代还没有 调参侠 这个称呼,因此没有人当头棒喝给我那么一下,告诉我这种二半吊子做法会有什么危害