监督学习

大规模计算时代:深度生成模型何去何从

十年热恋 提交于 2020-04-12 17:04:25
©PaperWeekly 原创 · 作者|Chunyuan Li 单位|Microsoft Research Researcher 研究方向|深度生成模型 人工智能的核心愿望之一是开发算法和技术,使计算机具有合成我们世界上观察到的数据的能力, 比如自然语言,图片等等。 每当我们建立一个模型来模仿这种能力时,该模型就称为 生成模型 (Generative Models)。 如果该模型涉及深度神经网络,则该模型是 深度生成模型 (Deep Generative Models, 简称 DGMs)。 作为深度学习中自我监督学习 (self-supervised learning)技术的一个分支,DGM 特别专注于 刻画数据的生成过程 。这篇文章回顾了 DGM 的历史,定义和现状,并分享最新的一些研究结果。最终希望启发大家去思考一个共同的主题: 如何在大规模预训练时代推进或应用深度生成模型。 历史回顾和基础知识:三种类型的深度生成模型和一个通用技巧 生成模型(Generatitve Models)在传统机器学习中具有悠久的历史,它经常与另外一个主要方法(判别模型,Discriminative Models)区分开。我们可以通过一个故事 [1] 学到它们有何不同:有两兄弟,他们具有不同的特殊能力,一个具有深入洞察事物内在的能力,而另一个善于学习所见事物之间的差异。在故事里,前者代表生成模型

机器学习概述

☆樱花仙子☆ 提交于 2020-04-11 13:21:39
学习资料:《统计学习方法第二版》第一章 一. 机器学习定义 机器学习就是计算机能够利用数据和统计方法提高系统性能的方法。 二. 机器学习分类 机器学习一般可以分为监督学习、无监督学习、半监督学习和强化学习。 三. 机器学习方法三要素 模型+策略+优化算法=机器学习方法 模型 在监督学习中模型就是要学习的 条件概率或决策函数 ,也就是输入空间到输出空间的映射,映射就是模型,模型就是这个映射。其中条件概率对应的是概率模型,决策函数对应的是非概率模型。 策略 机器学习的目标是从假设空间中找到一个 泛化错误较低的“理想”模型 ,即想找到一个针对这类问题的最优模型。 策略就是找到这个理想最优模型的准则! 常用的策略是损失函数和风险函数。损失函数是用来度量模型一次预测的好坏,风险函数是用来度量平均意义下模型预测的好坏。损失函数和风险函数越小,预测结果越精确。 常用的损失函数:0-1损失、平方损失函数(常用于回归问题)、交叉熵损失函数(常用于分类问题)、Hinge损失(常用于二分类问题)。 期望风险(模型的平均损失)、经验风险、结构风险。其中期望风险无法计算,一般采取下面两个策略: 经验风险最小化策略 (最大似然估计)、 结构风险最小化策略 (最大后验估计)。 最大似然参数估计(MLE,频率派):由生成的数据结果反推参数 \((P(X|\theta))\) ,假设参数均匀分布(“让数据自己说话”

机器学习概述

吃可爱长大的小学妹 提交于 2020-04-11 13:13:53
学习资料:《统计学习方法第二版》第一章 一. 机器学习定义 机器学习就是计算机能够利用数据和统计方法提高系统性能的方法。 二. 机器学习分类 机器学习一般可以分为监督学习、无监督学习、半监督学习和强化学习。 三. 机器学习方法三要素 模型+策略+优化算法=机器学习方法 模型 在监督学习中模型就是要学习的 条件概率或决策函数 ,也就是输入空间到输出空间的映射,映射就是模型,模型就是这个映射。其中条件概率对应的是概率模型,决策函数对应的是非概率模型。 策略 机器学习的目标是从假设空间中找到一个 泛化错误较低的“理想”模型 ,即想找到一个针对这类问题的最优模型。 策略就是找到这个理想最优模型的准则! 常用的策略是损失函数和风险函数。损失函数是用来度量模型一次预测的好坏,风险函数是用来度量平均意义下模型预测的好坏。损失函数和风险函数越小,预测结果越精确。 常用的损失函数:0-1损失、平方损失函数(常用于回归问题)、交叉熵损失函数(常用于分类问题)、Hinge损失(常用于二分类问题)。 期望风险(模型的平均损失)、经验风险、结构风险。其中期望风险无法计算,一般采取下面两个策略: 经验风险最小化策略 (最大似然估计)、 结构风险最小化策略 (最大后验估计)。 最大似然参数估计(MLE,频率派):由生成的数据结果反推参数 \((P(X|\theta))\) ,假设参数均匀分布(“让数据自己说话”

无监督学习方法

百般思念 提交于 2020-04-11 12:49:11
学习资料:吴恩达机器学习课程 一. K-means算法 1. 算法思想 K-均值算法是无监督学习中聚类算法中的一个 初始化k个聚类中心 循环: 将每个训练样本归类到最近的聚类中心组成一个个聚类 移动聚类中心到本身聚类的中心(平均值) 2. 目标优化 3. 随机初始化 K-均值 的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。 解决方法:通常需要多次运行(50-1000次) K-均值 算法,每一次都重新进行随机初始化,最后再比较多次运行 K-均值 的结果,选择代价函数最小的结果。 初始化时随机选择训练样本作为聚类中心 这种方法在较小的时候 \(K\) 较小时(2-10)还是可行的,但是 \(K\) 如果较大,就没有必要多次随机初始化了。 4. 选择聚类的数目K 根据“肘部法则” 根据聚类算法分类后的目的来决定数量 二. 主成分分析PCA 1. Dimensionality reduction降维 主成分分析是降维的一种方法,将高纬数据压缩成较低维度数据。比如将两个维度的压缩成一个维度时:就是指将两个特征压缩成一个新的特征。 降纬的作用: 压缩数据,减少数据存储空间; 加快学习算法速度; 可视化数据:降到2D、3D可以可视化数据。 2. PCA步骤 首先进行数据预处理,均值标准化 \[\frac{X^{[i]}-x_{平均值}}{s_{标准差}/x_{max}

无监督学习方法

泄露秘密 提交于 2020-04-11 12:21:00
学习资料:吴恩达机器学习课程 一. K-means算法 1. 算法思想 K-均值算法是无监督学习中聚类算法中的一个 初始化k个聚类中心 循环: 将每个训练样本归类到最近的聚类中心组成一个个聚类 移动聚类中心到本身聚类的中心(平均值) 2. 目标优化 3. 随机初始化 K-均值 的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。 解决方法:通常需要多次运行(50-1000次) K-均值 算法,每一次都重新进行随机初始化,最后再比较多次运行 K-均值 的结果,选择代价函数最小的结果。 初始化时随机选择训练样本作为聚类中心 这种方法在较小的时候 \(K\) 较小时(2-10)还是可行的,但是 \(K\) 如果较大,就没有必要多次随机初始化了。 4. 选择聚类的数目K 根据“肘部法则” 根据聚类算法分类后的目的来决定数量 二. 主成分分析PCA 1. Dimensionality reduction降维 主成分分析是降维的一种方法,将高纬数据压缩成较低维度数据。比如将两个维度的压缩成一个维度时:就是指将两个特征压缩成一个新的特征。 降纬的作用: 压缩数据,减少数据存储空间; 加快学习算法速度; 可视化数据:降到2D、3D可以可视化数据。 2. PCA步骤 首先进行数据预处理,均值标准化 \[\frac{X^{[i]}-x_{平均值}}{s_{标准差}/x_{max}

参考《机器学习实战》高清中文PDF+高清英文PDF+源代码

我的未来我决定 提交于 2020-04-11 07:52:22
机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 入门建议参考《机器学习实战》,分为4个部分,分别是分类(有监督学习,包括KNN/决策树/朴素贝叶斯/逻辑斯蒂回归/svm/改变样本权重的bagging和adaboosting)、回归(有监督学习,线性回归、局部加权、特征维度比样本个数多时缩减系数,如岭回归、lasso等,树回归,这块掌握不太好)、无监督学习(kmeans、apriori/fp-growth)以及其他工具(PCA/SVD/MAPREDUCE)。 学习参考: 《机器学习实战》高清中文版, 339页,带目录书签,文字可复制;高清英文版, 382页,带目录书签,文字可复制; 中英文两版对比学习。讲解详细并配有源代码。 网盘下载: http://106.13.73.98 ![](https://img2018.cnblogs.com/other/1499715/201906/1499715-20190604164225573-1297509638.png) 来源: oschina 链接: https://my.oschina.net/u/4258425/blog/3228795

学习第一周

老子叫甜甜 提交于 2020-04-10 13:23:37
监督学习(他们中有标签加以区分) 回归算法 我们给出一个数据集,里面包含了正确的答案,假如我们给他一个房价的数据集,在这个数据集中的每个样本,我们都给出正确的答案(房子的实际价格),该算法的目的是为了算出更多的正确答案,这类问题我们也叫做回归问题,我们想 预测连续数值的输出。 分类算法 分类是指,我们设法预测出一个离散值输出,0或1,在实际的问题中,会有两个以上的输出值,在分类的问题中,有另一种方法来绘制这些数据, 预测离散值输出。 无监督学习(没有任何标签) 聚类算法 来源: oschina 链接: https://my.oschina.net/u/4370628/blog/3227734

中国首款智能显微镜获批进入临床:病理诊断AI化,腾讯AI Lab打造

爷,独闯天下 提交于 2020-04-10 12:59:46
癌症被称为「众病之王」,若能尽早检测诊断,病人则更可能得到有效救治。一般来说,癌症的检查和诊断依赖于病理学检查;而在病理学检查过程中,显微镜观察是必不可少的步骤。钟南山院士曾表示:「临床病理水平是衡量国家医疗质量的重要标志」。今日,腾讯 AI Lab 宣布,联合舜宇光学科技、第三方医学检验机构金域医学宣布三方研发的智能显微镜已获得 NMPA 注册证,成为国内首个获准进入临床应用的智能显微镜产品。 据介绍,该智能显微镜产品研发始于 2018 年,集成了目前病理分析与诊断方面的最新技术,并针对病理医生工作流程和习惯进行多次产品迭代,现已支持乳腺癌免疫组化(IHC)Ki67(肿瘤细胞增殖指数)、ER(雌激素受体)、PR(孕激素受体)和 Her2(细胞表面生长因子 2)等常用核染色和膜染色量化分析场景的判读。 该产品在测试被证明能有效提升病理医生的工作效率、病理分析的精确度和一致性,有望缓解医院(尤其是基层医院)病理医生数量短缺且经验不足的问题,也是精准医疗从前沿研究走向落地探索的一个良好例证。 以前,病理医生要花大量的时间和脑力劳动、依靠经验在显微镜下识别和判断病变组织,并粗略估算其细胞数量,分析结果可能因医生经验不同而有所差别。现在,有了智能显微镜,如金域病理专家丁向东主任评价的那样:「医生只要用脚轻轻一踏,智能显微镜就会将分析结果和判断实时、精确地呈现在显微镜视野内

贝叶斯推断之最大后验概率(MAP)

主宰稳场 提交于 2020-04-09 11:38:54
贝叶斯推断之最大后验概率(MAP) 本文详细记录贝叶斯后验概率分布的数学原理,基于贝叶斯后验概率实现一个二分类问题,谈谈我对贝叶斯推断的理解。 1. 二分类问题 给定N个样本的数据集,用 \(X\) 来表示,每个样本 \(x_n\) 有两个属性,最终属于某个分类 \(t\) $t=\left\{0,1\right\}$ $\mathbf{x_n}=\begin{pmatrix}x_{n1} \\ x_{n2} \\ \end{pmatrix}$, 假设模型参数$w=\begin{pmatrix} w_1 \\ w_2\end{pmatrix}$ $\mathbf{X}=\begin{bmatrix} x_1^T \\ x_2^T \\. \\. \\ x_n^T\end{bmatrix}$ 将样本集用用图画出来如下: 根据贝叶斯公式有: \[p(w|t,X)=\frac {p(t|X,w)p(w)} {p(t|X)} \] (公式1) \(p(w | t,X)\) 告诉我们:在已知训练样本集 \(X\) 以及这些样本的某个分类 \(t\) (这是一个监督学习,因为我们已经有了样本集 \(X\) 、以及样本集中每个样本所属的分类 \(t\) ),需要求解模型参数 \(w\) 。因此, \(w\) 是未知的,是需要根据样本通过贝叶斯概率公式来进行求解的。求得了 \(p(w|t,X)\)

超越99.9%人类玩家,微软专业十段麻将AI论文细节首次公布

﹥>﹥吖頭↗ 提交于 2020-04-09 00:52:10
  机器之心报道    机器之心编辑部   在去年 8 月底的世界人工智能大会上,时任微软全球执行副总裁的沈向洋正式对外宣布了微软亚洲研究院研发的麻将 AI「Suphx 」。近日,关于 Suphx 的所有技术细节已经正式公布。      继围棋、德州扑克、Dota、星际争霸之后,微软亚洲研究院的「Suphx」创造了 AI 在游戏领域的另一跨越性突破——麻将。   一直以来,麻将都因其复杂的出牌、得分规则和丰富的隐含信息,被视为 AI 研究中极具挑战性的领域。微软亚洲研究院副院长刘铁岩曾表示:「可以说 Dota 这类游戏更「游戏」,而麻将这类棋牌游戏更「AI」。」   Suphx 代表着 AI 系统在麻将领域取得的最好成绩,它也是首个在国际知名专业麻将平台「天凤」上荣升十段的 AI 系统,其实力超越了该平台与之对战过的 99.9% 的人类选手。   不久前,微软麻将 AI 研究团队在 arXiv 上首次公开发布了 Suphx 的论文,而 Suphx 背后的更多技术细节也随之公开。      论文链接:https://arxiv.org/abs/2003.13590    方法概述   在论文中,研究者创建了适用于 4 玩家日本麻将的 AI 系统 Suphx(Super Phoenix 的简称,意为超级凤凰),它采用深度卷积神经网络作为模型。首先,根据人类职业玩家的日志