监督学习

深度学习时代的图模型,清华发文综述图网络

本秂侑毒 提交于 2019-12-04 02:09:42
原文地址: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650754422&idx=4&sn=0dc881487f362322a875b4ce06e645f7&chksm=871a8908b06d001ef7386ccc752827c20711877a4a23d6a8318978095dd241d118257c607b22&scene=21#wechat_redirect 深度学习在多个领域中实现成功,如声学、图像和自然语言处理。但是,将深度学习应用于普遍存在的图数据仍然存在问题,这是由于图数据的独特特性。近期,该领域出现大量研究,极大地提升了图分析技术。清华大学朱文武等人综述了应用于图的不同深度学习方法。 他们将现有方法分为三个大类:半监督方法,包括 图神经网络 和图卷积网络;无监督方法,包括图自编码器;近期新的研究方法,包括图循环神经网络和图强化学习。然后按照这些方法的发展史对它们进行系统概述。该研究还分析了这些方法的区别,以及如何合成不同的架构。最后,该研究简单列举了这些方法的应用范围,并讨论了潜在方向。 引言 近十年,深度学习成为人工智能和机器学习这顶皇冠上的明珠,在声学、图像和自然语言处理领域展示了顶尖的性能。深度学习提取数据底层复杂模式的表达能力广受认可。但是,现实世界中普遍存在的图却是个难点

《机器学习》西瓜书第十三章半监督学习

℡╲_俬逩灬. 提交于 2019-12-04 00:00:41
半监督学习 13.1 未标记样本 在实际生活中,常常会出现一部分样本有标记和较多样本无标记的情形。如何利用未标记样本数据呢? 主动学习:从未标记样本中挑选不确定性高或分类置信度低的样本来咨询专家进行打标。最后使用扩充后的训练集重新训练学习器,这样便能大幅度降低标记成本,这便是主动学习,其目标是使用尽量少的,有价值的查询来获得更好的性能。 显然,主动学习需要与外界进行交互,其本质仍然属于一种监督学习。事实上,无标记样本通标记样本都是从同样的数据源独立同分布采样得来,他们所包含的关于数据分布的信息对建立模型将大有裨益。 让学习不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。即训练集同时包含有标记样本数据和未标记样本数据。 聚类假设:假设数据存在簇结构,同一个簇的样本属于同一个类别。 流形假设:假设数据分布在一个流形结构上,邻近的样本你拥有相似的输出值。邻近程度常用相似程度来刻画,因此,流形假设可以看做聚类假设的推广,但流形假设对输出值没有限制,因此适用范围更广。 事实上,聚类假设和流形假设其本质都是相似的样本有相似的输出。 半监督学习可进一步划分为纯半监督学习和直推学习,两者的区别在于:纯半监督学习假定训练数据中的未标记样本并非待预测的数据,而直推学习假定学习过程中未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。 13.2 生成式方法

图神经网络概述第三弹:来自IEEE Fellow的GNN综述

。_饼干妹妹 提交于 2019-12-03 23:47:52
图神经网络(GNN)热度持续上升,之前我们曾介绍了清华两篇综述论文,参见:深度学习时代的图模型,清华发文综述图网络,和清华大学图神经网络综述:模型与应用。最近,IEEE Fellow、Senior Member 和 Member Zonghan Wu 等人又贡献了一篇图神经网络综述文章。这篇文章介绍了 GNN 的背景知识、发展历史、分类与框架、应用等,详细介绍了各种模型与方法,包括公式、模型图示、算法等,希望对大家有所帮助。 引言 深度网络的最新进展推进了模式识别和数据挖掘领域的研究。目标检测、机器翻译、语音识别等许多机器学习任务曾高度依赖手工特征工程来提取信息特征集合,但多种端到端深度学习方式(即卷积神经网络、长短期记忆网络和自编码器)改变了这种状况。深度学习在多个领域的成功主要归功于计算资源的快速发展(如 GPU)、大量训练数据的收集,还有深度学习从欧几里得数据(如图像、文本和视频)中提取潜在表征的有效性。例如 CNN 可以利用平移不变性、局部连通性和图像数据语意合成性,从而提取出与整个数据集共享的局部有意义的特征,用于各种图像分析任务。 尽管深度学习已经在欧几里得数据中取得了很大的成功,但从非欧几里得域生成的数据已经取得更广泛的应用,它们需要有效分析。例如,在电子商务领域,一个基于图的学习系统能够利用用户和产品之间的交互以实现高度精准的推荐。在化学领域,分子被建模为图

深度学习#1.有监督学习和无监督学习

空扰寡人 提交于 2019-12-03 18:47:31
机器学习#1.有监督学习和无监督学习 人工智能与机器学习与深度学习 机器学习 有监督学习 无监督学习 人工智能与机器学习与深度学习 什么是人工智能? 人类用各种方式让机器拥有与人类相仿的“智能”,就是人工智能。 什么是机器学习? 机器学习就是实现人工智能的一种方式。 什么是深度学习? 深度学习就是实现机器学习的一种技术。 机器学习 为什么要机器学习呢?你想啊,人类这么聪明是为什么,还不是因为在整个人类历史中,人类不断学习,所以才有现在的智能。既然要让机器拥有与人类相仿的智能,那就让机器去学习吧。 机器学习大概可分为两种:有监督学习和无监督学习 有监督学习 有监督学习的大致过程(以图片识别猫为例): 1. 数据采集(就是找一堆猫的图片,假设是x张,当然数量很庞大,至于多大我也不清楚) 2. 特征提取(就是在图片是把猫圈起来,然后给一个标签:猫;而没有圈起来的部分全部作为背景,同时也给一个标签:背景。当然啦,这都是在软件上进行的) 3. 图片转换:人类看图片是很简单的,而机器是怎么看图的呢。机器看到的图片是由一堆数字组成的,如下图 当然啦,数字是我乱填的。一张彩色图片通常是三层(rgb,即红色red,绿色green,蓝色blue)的,所以是由三张和上面的图一样的图,你也可以看作是三张填满数字的表格。 当然,黑白图片就只有一层的,相当于只有一张表格咯。表格中的数字代表着颜色的程度。

非监督学习之k-means

孤人 提交于 2019-12-03 17:29:56
K-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段: 1、随机设置K个特征空间内的点作为初始的聚类中心 2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别 3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值) 4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行 第二步过程 sklearn.cluster.KMeans class sklearn.cluster.KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm='auto') """ :param n_clusters:要形成的聚类数以及生成的质心数 :param init:初始化方法,默认为'k-means ++',以智能方式选择k-均值聚类的初始聚类中心,以加速收敛;random,从初始质心数据中随机选择k个观察值(行 :param n_init:int,默认值:10使用不同质心种子运行k-means算法的时间

机器学习

我的未来我决定 提交于 2019-12-03 13:37:32
如何评价算法的好坏 如何解决过拟合和欠拟合 如何调节算法的参数 如何验证算法的正确性 什么是机器学习: 机器学习算法 输入大量学习资料 模型 输入样例 输出结果 机器学习的主要任务: 分类 二分类 多分类:图像识别,数字识别,风险评级… 一些算法只支持二分类的任务 但是多分类的任务可以转换成二分类的任务 有一些算法天然可以完成多分类任务 回归 结果是一个连续数字的值。而不是一个类别 有一些算法只能解决回归问题 有一些算法只能解决分类问题 有一些算法的思路既能解决回归问题,又能解决分类问题 一些情况下, 一个回归任务可以简化成分类任务 机器学习方法的分类 监督学习 给机器的训练数据拥有“标记”或者‘答案’ K近邻 线性回归和多项式回归 逻辑回归 svm 决策树和随机森林 非监督学习 给机器的训练数据没有任何“标记”和“答案” 对没有标记的数据进行分类 - 聚类分析 对数据进行将维处理(特征提取, 特征压缩:PCA, 方便可视化,异常检测) 半监督学习 一部分数据有标记或答案,另一部分数据没有 更常见:各种原因产生的标记缺失 通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测 增强学习 根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式 机器学习的其他分类 在线学习和批量学习(离线学习) 批量学习 优点:简单 问题:如何适应环境变化? 解决方案

python库之——sklearn

岁酱吖の 提交于 2019-12-03 09:43:54
机器学习库sklearn 官方documentation(资料)中分为不同的部分: 其中我们主要讲User Guide(机器学习算法理论介绍)、API(程序实现方法): 一、User Guide https://scikit-learn.org/stable/user_guide.html 模块 说明 Supervised learning 监督学习 监督学习的各种算法介绍 Unsupervised learning 非监督学习 非监督学习的各种算法介绍 Model selection and evaluation模型选择和评价 交叉验证、调参、模型评价、验证曲线 Inspection 检查 Dataset transformations 数据转换 特征抽取、数据预处理、缺失值处理、非监督降维方法、随机投影、核近似、转换预测目标 Dataset loading utilities 数据下载程序 玩具数据、真实数据集、生成数据、下载其它数据 Computing with scikit-learn 利用sklearn计算 对大数据集的计算策略、计算表现、并行计算、资源管理和配置 二、api 和前面的内容对应,这个内容里给了在sklearn里的实现方法。 模块 功能 sklearn.base module: Base classes and utility functions

《机器学习实战》高清中文带标签PDF+高清英文PDF+源代码

。_饼干妹妹 提交于 2019-12-03 05:45:02
1 写在前面 最近在做机器学习项目的时候发现一本好书,《机器学习实战》, 介绍并实现机器学习的主流算法。 面向日常任务的高效实战内容, 《机器学习实战》没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码+运行效果 我们都知道,机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 入门建议参考《机器学习实战》,分为4个部分,分别是分类(有监督学习,包括KNN/决策树/朴素贝叶斯/逻辑斯蒂回归/svm/改变样本权重的bagging和adaboosting)、回归(有监督学习,线性回归、局部加权、特征维度比样本个数多时缩减系数,如岭回归、lasso等,树回归,这块掌握不太好)、无监督学习(kmeans、apriori/fp-growth)以及其他工具(PCA/SVD/MAPREDUCE)。 2 学习参考 《机器学习实战》高清中文版, 339页,带目录书签,文字可复制;高清英文版, 382页,带目录书签,文字可复制; 中英文两版对比学习。讲解详细并配有源代码。 本书百度云盘下载链接: 《机器学习实战》高清带标签PDF + 源码下载 3 本书目录 第1章 机器学习基础   1.1

【监督学习】第四课(分类算法,svm理论)

匿名 (未验证) 提交于 2019-12-03 00:36:02
监督学习第四,五周: 因为有一周是lab课所以第四课实际上是第五周的内容。 本课件26页,典型的高压课件!所有复杂的理论就在这26页中全部展示。我会尽量让大家跟随教授的思路并享受到直观的算法思想。 1,具有分离数据功能的超平面 前面的课程说过,所谓的分类问题的解就是一个函数,这个函数能够接受数据输入,产生分类结果的输出。 而在一个空间中,我们则是要找到一个界限,这个界限可以将不同类别的数据分开。 而对于一个空间来说,这个界限实际上是一个平面(超平面)。想象在三维空间里,每个数据点的表示为 (X,Y,Z),有一些数据点聚集在超平面的左侧,而另外一些数据点聚集在超平面的右侧(另一侧)。那么我们说这个超平面具有分离数据的功能。 对于三维空间来说,这个界限是一个平面,而对于多维空间来说,这个界限是一个超平面。 那么如何表示这个平面呢? 假设这个是三维空间,则平面的表达式为: 也就是 a x b . y = k c z 其中abc是平面的法向量normal vector,也就是垂直于平面的向量。 xyz就是一个点,位于这个平面上。 而多维的空间的超平面,实际上也是一样的表达式, w x + bias = 0, where w stand for weight , 这个时候我们发现,将空间中其他不位于平面上的点带入 wx + b这个式子中,只有两个结果 ,label >0 或者label <0

吴恩达机器学习 - 无监督学习――K-means算法

匿名 (未验证) 提交于 2019-12-03 00:34:01
题目链接: 点击打开链接 function idx = findClosestCentroids (X, centroids) %FINDCLOSESTCENTROIDS computes the centroid memberships for every example % idx = FINDCLOSESTCENTROIDS (X, centroids) returns the closest centroids % in idx for a dataset X where each row is a single example. idx = m x 1 % vector of centroid assignments (i.e. each entry in range [1..K]) % % Set K K = size (centroids, 1 ); % You need to return the following variables correctly. idx = zeros ( size (X, 1 ), 1 ); % ====================== YOUR CODE HERE ====================== % Instructions: Go over every example, find its closest