无监督学习

GAITC专题论坛丨张俊林:AI时代下大规模机器学习的应用

偶尔善良 提交于 2020-08-08 12:54:42
  7月26日,由中国人工智能学会主办、新浪新闻联合浙江大学承的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕,新浪集团首席信息官、新浪AI媒体研究院院长王巍,浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。    新浪微博机器学习团队AI Lab负责人张俊林本次专题论坛上,与来自业界、学术界的嘉宾们分享了《机器学习在微博的应用》。      图注:新浪微博机器学习团队AI Lab负责人张俊林作主题演讲。    张俊林提到,在新闻场景中,或者微博场景中,实时模型的在线学习非常重要。用户兴趣可能会非常快速的发展变化,尤其是在视频的场景下。作为机器学习模型,如何更快捕获到用户行为、兴趣的变化?如果把兴趣点体现到模型中,并实时更新,那么再做下一刷的时候,新兴趣可能就体现出来,这就是所谓的实时模型。    他认为,在当前日益激烈的竞争环境下,以大数据+深度模型的新技术对于推动用户进一步增长非常重要。    以下为张俊林演讲实录,内容经编辑略有删减:    尊敬的各位嘉宾,网上的朋友大家好,首先我个人非常感谢论坛主席能够提供这么好的机会让我来给大家分享一下人工智能在微博中的应用。    大家都知道,新浪新闻和新浪微博,应该说是我们公司在AI时代下大环境的变迁情况下两个典型的个性化的应用。在这种个性化的推荐场景下

机器学习 --基础入门介绍 他来啦!!!

只愿长相守 提交于 2020-08-08 12:15:49
行业热词解释 机器学习基本术语 假如我们有一组天气数据,是来自全世界不同国家和地区的每日天气,内容包括最高温度、最低温度、平均湿度、风速之类的相关数据,例如数据的一部分是这样的: 城市 最高温度 最低温度 相对湿度 某时刻风速 A市 36℃ 28℃ 58% 16.7km/h B市 28℃ 17℃ 86% / C市 34℃ 29℃ 39% 20.4km/h 在这组数据中,我们将称A市、B市、C市等市以及其情况的总和称为 数据集 (data set)。表格中的每一行,也就是某城市和它的情况被称为一个 样例 (sample/instance)。表格中的每一列(不包括城市),例如最高温度、最低温度,被称为 特征 (feature/attribute),而每一列中的具体数值,例如36℃ 、28℃,被称为 属性值 (attribute value)。数据中也可能会有 缺失数据 (missing data),例如B市的某时刻风速,我们会将它视作缺失数据。 如果我们想预测城市的天气,例如是晴朗还是阴雨天,这些数据是不够的,除了特征以外,我们还需要每个城市的具体天气情况,也就是通常语境下的结果。在机器学习中,它会被称为 标签 (label),用于标记数据。值得注意的是,数据集中不一定包含标签信息,而这种区别会引起方法上的差别。我们可以给上述示例加上一组标签: 城市 天气 A市 晴朗 B市 阴雨 C市

10_隐马尔可夫模型

故事扮演 提交于 2020-08-08 09:38:12
  今天是2020年3月13日星期五。不知不觉已经在家待了这么多天了,从上一节EM算法开始,数学推导越来越多,用mathtype码公式真的是太漫长了。本来该笔记是打算把《统计学习方法》这本书做详细的解读,起初面对书里大量的数学推导,感到非常恐惧。假期“空窗”时间不少,才有了细嚼慢咽学习的机会。其实很大的原因是自己掌握的东西太少,知道的算法太少,所以才对这本书恐惧。买了一直放着不愿意学。现在到隐马尔可夫模型,再有一章条件随机场,监督学习部分就结束了。这一个月来,最大的收获是知道了“怎么学”。   新的章节抛出一个新的算法模型,往往丈二和尚摸不着头脑,什么都是新的。越是拖延进度越慢,更不能一口吃个胖子指望看一遍就能懂。书读百遍,其意自见,一遍不懂就再看一遍,一遍有一遍的收获。但这个过程千万不要盯着一本书看,一定要多找博客,多看知乎、CSDN,保持审视的态度,保留自己的见解。另外,我是喜欢直接看文字,实在不懂了才去翻视频看,觉得这种模式挺适合我。   学到第十章,发现书中的很多东西,没必要面面俱到,要适当的取舍和放过。因为毕竟这本书不是一次性消耗品,是值得深究和研习的。第一次不懂的东西,完全可以学习完所有章节,建立大的思维格局后,再重新考虑小细节。   接下来的所有章节,从例子出发,引入各个概念;手写推导过程;图解算法流程;最后实现代码。掰扯开来,其实也就是三个问题:该模型是什么样子的

深度学习入门笔记(一):机器学习基础

人盡茶涼 提交于 2020-08-07 12:17:10
专栏——深度学习入门笔记 文章目录 专栏——深度学习入门笔记 本章内容 一.人工智能的机遇与挑战 二.机器学习 2.1 什么是机器学习 2.2 用机器学习解决问题的一般流程 2.3 数据预处理 2.4 特征工程 2.5 模型性能的评估与选择 三.深度学习的发展历程和应用 3.1 深度学习的发展历程 3.2 深度学习的应用 参考文章 本章内容 人工智能的发展及其面临的挑战 机器学习的基础知识和基本概念 特征工程的方法和流程 深度学习的发展及应用 1956年8月,约翰.麦卡锡在美国达特茅斯学院(Dartmouth College)发起的一次研讨会 上首次提出了“人工智能”这个概念。这次会议因此被公认为是人工智能诞生的标志。在之后60多年的时间里,人工智能的发展起起伏伏、忽“冷”忽“热”。2016年,AlphaGo与李世石的那场“世纪大战”彻底点燃了大众的热情。当前,人工智能成了一个“香饽饽”,很多国家都在积极争夺人工智能领域的话语权,各大公司也都不断加大在人工智能领域的投入。人工智能成为继个人电脑、互联网、移动互联网之后的又一 次浪潮,对于想要转行人工智能领域的人或者人工智能领域的从业者来说,当下就是一个不折不扣的黄金时代。作为解决人工智能领域中问题的工具,机器学习和深度学习目前正被广泛地学习和使用。 一.人工智能的机遇与挑战

XLNet论文导读-超越Bert的后浪

那年仲夏 提交于 2020-08-07 08:57:30
论文链接: https:// arxiv.org/pdf/1906.0823 7.pdf 导读 自然语言处理中,无监督学习通常分为自回归任务和自编码任务,自回归任务是从左到右预测一个可能的单词,自编码任务是已知上下文,去预测被MASK掉的单词,例如Bert就是一个非常经典的自编码任务。但是自编码任务被人诟病的缺点就是预训练和Finetune阶段看到的信息是不一样的,忽视了原文本和上下文之间的互相影响的关系。基于以上分析,本文提出了XLNet, 平衡了自编码任务和自回归任务的优缺点的自回归任务并且在多个数据集上也超过了Bert。并且我们还有一个惊人的发现——NSP(Next Sentence Prediction)对于XLNet的效果提升并无太大影响。这是为什么呢?我们一起来康康吧~ 背景 在自然语言处理中,无监督学习通常是在大规模数据集上进行预训练然后在下游任务中进行微调,这些任务通常分为两种类型自回归任务(Autoregressive)和自编码任务(AutoEncoding)。 自回归任务(AR) 是根据上下文内容预测下一个可能的单词,但是这个上下文仅限于一个方向,前向或者后向,不能同时利用上下文的信息。GPT就是典型的AR语言模型,AR语言模型的优点是 擅长生成式的自然语言处理任务 ,比如机器翻译,文本摘要等,因为在生成文本的时候就是从左向右的。 自编码任务(AE)

DCGAN论文导读、关键点说明及代码实现修改(1)

血红的双手。 提交于 2020-08-04 10:16:57
论文导读 网上关于DCGAN论文的介绍很多,我就把我觉得对于需要理解的关键点和对后面训练调参有帮助的地方拿出来说明一下,仅做参考,有错误希望大佬们指正。 0.Abstract In this work we hope to help bridge the gap between the success of CNNs for supervised learning and unsupervised learning 这里作者说希望缩小CNN在有监督学习和无监督学习之间应用的差距,也就是当前CNN在有监督场景下应用效果更好。这里关于GAN属于无监督学习我们在后面的训练部分会有深入说明。 1.Introduction We propose that one way to build good image representations is by training Generative Adversarial Networks (GANs) (Goodfellow et al., 2014), and later reusing parts of the generator and discriminator networks as feature extractors for supervised tasks 这里作者说通过训练对抗生成神经网络构建了一种更好的图像表示的方法(one

ML.NET机器学习、API容器化与Azure DevOps实践(一):简介

為{幸葍}努か 提交于 2020-07-29 06:08:20
打算使用几篇文章介绍一下.NET下的机器学习框架ML.NET的具体应用,包括一些常用的业务场景、算法的选择、模型的训练以及RESTful API的创建、机器学习服务容器化,以及基于Azure DevOps的容器化部署等等相关的内容。如果你从来没有玩过机器学习,也从来没有了解过ML.NET,那么,本文将会是一个很好的开始。 机器学习 机器学习是一种对算法和统计数据模型进行科学学习的方式,通过使用这种方式,计算机系统能够有效地基于模式与推断,而非遵循特定的指令序列来完成一项特定的任务。机器学习是人工智能科学的一个分支,属于人工智能范畴。 (参考: https://en.wikipedia.org/wiki/Machine_learning )。 分类 机器学习可以分为如下几类: 监督学习(Supervised Learning) 无监督学习(Unsupervised Learning) 半监督学习(Semi-supervised Learning) 增强学习(Reinforcement Learning) 监督学习 从给定的训练数据集中学习出一种算法,当的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见算法分为: 统计分类 (Classification,根据训练模型,通过给定的特征属性

数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂

筅森魡賤 提交于 2020-07-28 20:39:22
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。 数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。 算法分类 连接分析:PageRank 关联分析:Apriori 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART 聚类算法:K-Means,EM 一、PageRank 当一篇论文被引用的次数越多,证明这篇论文的影响力越大。 一个网页的入口越多,入链越优质,网页的质量越高。 原理 网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和 一个网页的影响力:所有入链的页面的加权影响力之和。 一个网页对其他网页的影响力贡献为:自身影响力/出链数量。 用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。 所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。 比喻说明 1、微博 一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。 如果是僵尸粉没什么用

无需contrastive学习,微软亚研提出基于实例分类的无监督预训练方法

你说的曾经没有我的故事 提交于 2020-07-28 08:14:26
在本文中,微软亚洲研究院的研究员和实习生们提出了一个简单且高效的无监督预训练方法——参数化实例分类(PIC)。和目前最常用的非参数化对比学习方法不同,PIC 采用了类似于有监督图片分类的框架,将每个实例或图片看作一个独立的类别进行实例分类从而进行无监督学习。与 SimCLR 或 MoCo 这类方法相比,PIC 不需要处理潜在的信息泄漏问题,因此结构简单直观。研究者在实验中证明了 PIC 可以在 ImageNet 数据集中取得与这些非参数化对比学习方法相匹配的性能。 机器之心发布,机器之心编辑部。 论文地址: https:// arxiv.org/abs/2006.1461 8 面对着自然世界中越来越多的无标注数据,研究者们都希望找到一种正确的方式,从中学习对于视觉任务有帮助的特征,从而使得各类视觉任务能有进一步的突破,也使各类算法和模型能在实际生产环境中有更加充分的应用。最近的研究已经证明,在一些下游任务上,无监督的视觉特征学习可以取得与有监督学习同等甚至更高的迁移学习性能。 在本文中,微软亚洲研究院的研究员和实习生们提出了一个简单且高效的无监督预训练方法——参数化实例分类(Parametric Instance Classification,简称 PIC)。和目前最常用的非参数化对比学习方法不同,PIC 采用了类似于有监督图片分类的框架

三天后启幕!百余位知名AI学者齐聚,年度盛会免费注册通道在这里

只谈情不闲聊 提交于 2020-07-28 03:38:08
  扫码免费参加人工智能年度盛会   自 2009 年深度学习崛起以来,第三波人工智能浪潮席卷全球,推动了新一波技术革命。   在这波澜壮阔的 11 年,我们见证了技术突破、应用创新与产业变革。   技术上,深度学习首先带来计算机视觉、语音识别等领域的突破,让机器识别的准确率一步步突破人类水平;在应用上,深度学习、强化学习、联邦学习等学习范式在安防、游戏、金融等不同场景带来新的创新。人工智能技术,在这些领域由点到面的落地应用,逐步推动着整个产业的变革。   技术变革,需要不断的推陈出新。在这 11 年中,如果说前半期是深度学习的时代,那么近年来我们能够看到更多不同的概念继续推动这人工智能的发展:符号主义、因果关系、联邦学习,等等。   2020 年,是一个十年的结束,也是下一个十年的开始。   在未来的十年,人工智能技术将如何发展?如何推动 AI 技术在医疗、交通等领域的落地应用?如何构建 AI 基础设置、规范 AI 伦理,都是当前人工智能领域亟待解决的问题。   依托北京在人工智能领域的科研和人才优势,第二届北京智源大会将于 6 月 21-24 日线上开幕。   此届大会围绕技术、应用、基础设施等话题,广泛邀请国内外人工智能领域的顶级专家学者,探索人工智能前沿科技发展趋势,对人工智能基础研究发展现状及面临的机遇和挑战、人工智能技术未来发展的核心方向等话题展开分享与讨论