无监督学习

机器学习基础 | 监督学习与无监督学习的快速入门指南

我的未来我决定 提交于 2021-01-07 17:27:21
介绍 监督学习和无监督学习有什么区别? 对于机器学习的初学者和新手来说,这是一个常见的问题。答案 是理解机器学习算法本质的核心。如果没有明白监督学习与无监督学习之间的区别,你的机器学习之旅就无法继续进行 。 实际上,这是你踏上机器学习之旅之初应该学习的东西。如果我们不了解线性回归,逻辑回归,聚类,神经网络等算法的适用范围,就不能简单地跳到模型构建阶段。 如果我们不知道机器学习算法的目标是什么,我们将无法建立一个准确的模型。这就是监督学习与无监督学习的由来。 在这篇文章中,我将用例子讨论这两个概念,并回答一个大问题——如何决定何时使用监督学习或非监督学习? 什么是监督学习? 在监督学习中,计算机是通过数据来训练的。它从过去的数据中学习,并将学习到的东西应用到现在的数据中,以预测未来的事件。在这种情况下,输入数据和期望的输出数据都为预测未来事件提供帮助。 为了准确预测,输入数据被标记了正确的类别。 监督机器学习分类 重要的是要先记住,所有有监督学习算法本质上都是复杂的算法,分为分类或回归模型。 1) 分类模型: 分类模型用于输出变量可以分类的问题,例如“是”或“否”、“通过”或“失败”。分类模型用于预测数据的类别。现实生活中的例子包括垃圾邮件检测、情绪分析、考试记分卡预测等。 2) 回归模型 :回归模型用于输出变量为实际值的问题,例如唯一的数字、美元、工资、体重或压力

异常检测(Anomaly Detection)综述

耗尽温柔 提交于 2020-12-31 03:33:47
作者丨阿尔法杨XDU@知乎 来源丨https://zhuanlan.zhihu.com/p/266513299 导读 异常检测是一个发现“少数派”的过程,本文将目前深度学习的异常检测的热门研究方向进行了分类,并列举了对应的文章,并推荐了值得一读的8篇新颖论文,帮助大家理解学习异常检测这一领域。 一、简介 异常检测一直是机器学习中一个非常重要的子分支,在各种人工智能落地应用例如计算机视觉、数据挖掘、NLP中,异常检测算法都是很热门的研究方向,特别是大数据时代,人工处理数据的速度已经远远赶不上机器了,所以更快地检测数据中的异常情况成为了我们当下非常重要的任务。在深度学习广泛的推广之前,传统的异常检测算法有很多,例如高斯拟合,半监督学习等等,而在深度学习大火之后,人们也开始研究将深度学习应用于各种异常任务中(也就是Deep Anomaly Detection,以下统称DAD),并取得了很大的成功,本文将把当下该方向热门的研究方向分类并列举了对应的文章,希望能帮助大家更好地理解此方向的研究。 二、异常检测的概念 异常检测,从定义而言就是一种识别不正常情况与挖掘非逻辑数据的技术,也叫outliers。例如在计算机视觉的应用中,有人在抖音发表一个视屏,在边骑车边打电话,那这就是个不符合规范的视屏,我们能否采用一些方式来将其检测出来,再例如在数据挖掘领域中,那异常检测的应用就更广泛了

AI助力短视频创作

为君一笑 提交于 2020-12-18 07:37:58
hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。 文末了解《人工智能Mix》 AI不仅可以帮我们创作文章,做设计,还可以完成短视频创作。本文主要从大数据分析、视频理解、视频创作三个方面介绍AI应用在视频的前沿进展。 - 大数据分析电影 这是来自于Moviescope数据集所介绍的方法,作者探索了多模态电影的特征表示,使用CNN(VGG16)从单个电影的图片帧中提取特征表示(Video Representation - fastVideo),使用词嵌入从文本中提取特征表示( Text Representation - fastText),使用基于谱的特征进行音频表示,然后使用池操作聚合这些特征。对于元数据,使用随机林分类器。 实验结果: - 视频理解 主要是场景检测、自动切割、景深等任务。 - pyscenedetect 开源库 可以用来做视频摘要,自动剪辑之类的。 项目地址: https://pyscenedetect.readthedocs.io/en/latest/examples/usage-example/pyscenedetect.readthedocs.io - AutoFlip 开源库 谷歌开源的 AutoFlip 可以实现自动剪辑,包括视频尺寸裁切

K8s 将弃用 Docker;TypeScript 超越 C++ 成第四大语言

橙三吉。 提交于 2020-12-08 14:03:10
开发者社区技术周刊又和大家见面了,让我们一起看看,过去一周有哪些值得我们开发者关注的重要新闻吧。 Kubernetes 将弃用 Docker TypeScript 超越 C++ 成第四大语言 ASML 已完成 1nm 光刻机设计 摩尔定律再次重新起效 中国量子计算原型机九章问世 三星新无线充电专利曝光 用“戒指”就能为手机充电 CloudTech公布 2021 年值得关注的云计算趋势 RelationNet ++:桥接视觉以通过变压器解码器进行对象检测 NeurIPS 2020 | 自步对比学习:充分挖掘无监督学习样本 技 术 要 闻 Industry News 1, Kubernetes 将弃用 Docker 近日,Kubernetes 官方发布公告,宣布自 v1.20 起放弃对 Docker 的支持,届时用户将收到 Docker 弃用警告,并需要改用其他容器运行时。但 Docker 作为容器镜像构建工具的作用将不受影响,用其构建的容器镜像将一如既往地在集群中与所有容器运行时正常运转。官方解释称,Docker 作为一个完整的容器技术堆栈,在其创建之初就不是为了将其嵌入 Kubernetes 而设计的。除了其作为容器运行时本身的作用以外,Docker 还包含了一系列方便用户交互的 UX 更改,而这些额外的功能对于 Kubernetes 来说过于臃肿。事实上,Docker 并不符合

综述 | 知识图谱技术综述(上)

百般思念 提交于 2020-12-06 18:32:47
题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术 是人工智能技术的重要组成部分,其建立的具有 语义处理 能力与 开放互联 能力的 知识库 ,可在 智能搜索、智能问答、个性化推荐 等智能信息服务中产生应用价值。 该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的 知识抽取、知识表示、知识融合、知识推理 四大核心技术 的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。 关 键 词: 知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理 目录 0 导 读 1 知识图谱的定义与架构 1.1 知识图谱的定义 1.2 知识图谱的架构 2 大规模知识库 2.1 开放链接知识库 2.2 垂直行业知识库 3 知识图谱的关键技术 3.1 知识抽取 3.2 知识 表示 3.3 知识融合 3.4 知识推理 4 知识图谱的典型应用 4.1 智能搜索 4.2 深度问答 4.3 社交网络 4.4 垂直行业应用 5 知识图谱的挑战 5.1 知识获取 5.2 知识表示 5.3 知识融合 5.4 知识应用 6 结束语 7 参考文献 0.导读 人类先后经历了以文档互联为主要特征的“ Web 1.0 ”时代与数据互联为特征的“ Web 2.0 ”时代,正在迈向基于知识互联的崭新“ Web 3.0 ”时代 [1] 。 知识图谱 (knowledge graph)

就算是戴上口罩,AI也知道你在说什么

╄→尐↘猪︶ㄣ 提交于 2020-11-28 01:49:51
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 吃饭的时候,想要和对面聊聊天,然而周遭嘈杂的声音,让你根本不知道ta在说什么? 又或者,想与听障人士交流,然而对方听不见你的声音? 现在,检测面部肌肉变化的AI来了,只要你动了嘴,哪怕没出声,它也能知道你在说什么。 这是EMNLP 2020的最佳论文,来自UC伯克利的两位作者,用AI和电极做了个“沉默语音”的检测模型,可以检测到你想说、但没说出声的话。 其中的原理究竟是什么,我们来一探究竟。 用电极收集你小声哔哔的证据 “无声语音”的本质,是人在说话时面部、颈部肌肉的变化。 说白了,你在对口型时虽然没有出声,但你的脸和脖子“出卖”了你。 而能够检测“无声语音”的AI,也正是这么被做出来的。 在收集数据时,研究者会先在实验者的脸上等部位贴8个贴片,每个贴片都是一个“监视肌肉变化”的传感器,像这样: 在这之后,需要录制一段实验者的有声语音,并与肌电图进行对应,如下图 (会录制两种语音数据,一种每句话4个词左右,另一种每句话16个词左右) : 这种方法能够将肌肉的变化情况、和语音的类型对应起来。 在记录数据的过程中,还要再录制一段“对口型”的肌电图,但不需要发声,也就是“沉默语音”。 之所以要收集两份肌电图,是因为人在无声说话时,肌肉的变化与发声说话时的变化有些区别,例如部分发音部位的肌肉震颤幅度会变小,语速也有所变化。

机器学习知识框架

蹲街弑〆低调 提交于 2020-11-26 13:44:34
参数 参数分为两种:可学习得到的参数,和超参数。 机器学习可以归结为学习一个映射函数f : x → y,将输入变量 x映射为输出变量y。一般我们可以假设映射函数为y = f(x, θ)。其中θ 即为函 数的参数。参数可以通过学习算法进行学习。 除了可学习的参数之外,还有一类参数是用来定义模型结构或训练策略的, 这类参数叫做超参数(Hyper-Parameter)。超参数和可学习的参数不同,通常是按照人的经验设定,或者通过网格搜索(Grid Search)对一组超参数组合进行不断试错调整。 常见的超参数:聚类算法中的类别个数、梯度下降法的步长、正则项的系数、神经网络的层数、支持向量机中的核函数等。 特征学习 特征学习分成两种:特征选择和特征抽取。 特征选择(Feature Selection) 是选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高。简单地说,特征选择就是保留有用特征,移除冗余或无关的特征。 最暴力的做法是测试每个特征子集,看机器学习模型哪个 子集上的准确率最高,但这种方式效率太低。常用的方法是采样贪心的策略,由空集合开始,每一轮添加该轮最优的特征;或者从原始特征集合开始,每次删 除最无用的特征。 特征抽取(Feature Extraction)是构造一个新的特征空间,并将原始特征 投影在新的空间中。以线性投影为例,原始特征向量x ∈ R d

OpenSelfSup: Open-MMLab自监督表征学习代码库

拥有回忆 提交于 2020-11-20 07:08:27
本文转载自知乎,已获作者 授权转载。 https://zhuanlan.zhihu.com/p/148782886 前言 自监督的表征学习领域近几个月来获得了显著的突破,特别是随着Rotation Prediction, DeepCluster, MoCo, SimCLR等简单有效的方法的诞生,大有超越有监督表征学习的趋势。 然而,相信做这个领域的研究者都深有感触: 1)自监督任务复杂而多样,不同方法各有各的专用训练代码,难以结合、复用和改进; 2)评价方案不统一,不同的方法难以在公平环境下对比; 3)动辄百万千万的训练数据量,训练效率是个大问题。 针对这些问题,我们(香港中文大学多媒体实验室和南洋理工大学)开源了一套统一的自监督学习代码库:OpenSelfSup, 链接如下: https://github.com/open-mmlab/OpenSelfSup OpenSelfSup 统一的代码框架和模块化设计 OpenSelfSup使用PyTorch实现,支持基于分类、重建、聚类、memory bank、contrastive learning的多种自监督学习框架, 目前收录了Relative Location, Rotation Prediction, DeepCluster, OnlineDeepCluster, NPID, MoCo, SimCLR

双十一“囤医美”!“颜值经济”怎么玩才更安全?

五迷三道 提交于 2020-11-12 14:50:58
白山云科技 从青黛画眉、胭脂染唇,到如今形形色色的美妆产品层出不穷;从中医正骨徒手整形,到国内外研制的各种针剂、仪器创造千亿级市场;从“女为悦己者容”,到“女为己悦而容”的时代更迭中……对于美的追求,在东西文明的碰撞融合、医学和科技的演进升级中不断加深,“求美”也成为更加大众、日常、便捷的消费行为。 饿了么数据显示,2020年天猫双十一第一波售卖期,医美医疗订单量环比增长近7倍,成为最受欢迎的生活服务项目。“囤医美”,已然成为消费者双十一剁手的新姿势。 中投顾问报告也表明,进入21 世纪后,世界范围内医疗美容行业已成为仅次于汽车业和航空业的第三大产业。新趋势催生新业态, “互联网+医美” 在近年来迅速崛起,加快了医美数字化、智能化步伐。新氧、更美、悦美等第三方医疗服务平台的出现更极大提高了医院与求美者之间的匹配效率。 然而,人们在享受数字化便利时,信息安全问题却时常被忽略。相比而言, 医美平台兼具医疗与互联网的双重属性 ,信息环境复杂,既要对接医院的数据系统,又要对接广大求美者,每一个环节都有可能造成平台信息泄露。同时, 医美行业的信息敏感度更高 ,涉及求美者的信息不仅全面,而且关联度较高,求美者的隐私保护至关重要。 医美服务平台多存在 业务攻击量大、日记和评论被爬取、遭遇撞库、短信验证暴力破解等风险 。不法分子通过登录绕过、未授权访问、平行越权等手段,导致大量求美者的姓名、手机号

Hinton构思下一代神经网络:属于无监督对比学习

孤人 提交于 2020-10-31 15:04:23
本文由机器之心报道 Geoffrey Hinton 是谷歌副总裁、工程研究员,也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年,他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。 自 20 世纪 80 年代开始,Geoffrey Hinton 就开始提倡使用机器学习方法进行人工智能研究,他希望通过人脑运作方式探索机器学习系统。受人脑的启发,他和其他研究者提出了「人工神经网络」(artificial neural network),为机器学习研究奠定了基石。 那么,30 多年过去,神经网络的未来发展方向在哪里呢? Hinton 在此次报告中 回顾了神经网络的发展历程,并表示下一代神经网络将属于无监督对比学习。 Hinton 的报告主要内容如下: 人工神经网络最重要的待解难题是:如何像大脑一样高效执行无监督学习。 目前,无监督学习主要有两类方法。 第一类的典型代表是 BERT 和变分自编码器(VAE),它们使用深度神经网络重建输入。但这类方法无法很好地处理图像问题,因为网络最深层需要编码图像的细节。 另一类方法由 Becker 和 Hinton 于 1992 年提出,即对一个深度神经网络训练两个副本,这样在二者的输入是同一图像的两个不同剪裁版本时