监督学习

Part I/ Chapter 5 机器学习基础2

北战南征 提交于 2019-12-01 05:33:05
一、监督学习算法 1、概率监督学习:使用最大似然估计找到对于有参分布族p(y| x ; θ )=N(y; θ T x , I )最好的参数向量 θ 。 2、支持向量机(support vector machine,SVM):与逻辑回归不同,SVM不输出概率,只输出类别。   ① 核函数 :点积替换。一方面使我们能够使用保证有效收敛的凸优化技术学习非线性模型,另一方面核函数的实现方法通常比直接构建φ(x)再计算点积高效很多。   →最常用的核函数是 高斯核(Gaussian kernel) 。 3、其他简单监督学习算法:如k-最近邻、决策树(decision tree)。 二、无监督学习算法:一个经典的任务是找到数据的“最佳”表示 表示:①低维表示:尝试将x中的信息尽可能压缩到较小的表示中;    ②稀疏表示:常用于需要增加表示维数的情况,使得大部分为0的表示不会丢失很多信息;    ③独立表示:试图分开数据分布中变化的来源,使得表示的维度是统计独立的。 1、主成分分析 2、k-均值聚类 三、随机梯度下降(stochastic gradient descent,SGD):核心:梯度是期望。 四、构建机器学习算法:特定的数据集、代价函数、优化过程、模型 五、促使深度学习发展的挑战: 1、维数灾难(curse of dimensionality) 2、局部不变形和平滑正则化 3、流形学习

RCNN

房东的猫 提交于 2019-11-30 22:09:25
RCNN是将CNN引入目标检测的开山之作 一、创新点 1、引入Selective Search,预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上(采用CNN)提取特征,进行判断。 2、预训练:使用两个数据库: 一个较大的识别库(ImageNet ILSVC 2012):标定每张图片中物体的类别。一千万图像,1000类(说白了,这玩意就是为了预训练)。 一个较小的检测库(PASCAL VOC 2007):标定每张图片中,物体的类别和位置,20类(就是在这里面进行Selective Search找到那些框框)。 二、总体架构——四步走战略 1、候选区域生成: 一张图像生成1K~2K个候选区域 (采用Selective Search 方法) 2、特征提取: 对每个候选区域,使用深度卷积网络提取特征 (CNN) 3、类别判断: 特征送入每一类的SVM 分类器,判别是否属于该类 4、位置精修: 使用回归器精细修正候选框位置 三、(细节)Selective Search主要思想 1、使用一种过分割手段,将图像分割成小区域 (1k~2k 个) 2、查看现有小区域,按照合并规则合并可能性最高的相邻两个区域。重复直到整张图像合并成一个区域位置 3、输出所有曾经存在过的区域,所谓候选区域(2、3、的意思是说,先都把区域割的很小很小,逐步合并,那么每一块就会变得越来越大

Spark机器学习基础-监督学习

大憨熊 提交于 2019-11-30 18:40:50
监督学习 0.线性回归(加L1、L2正则化) from __future__ import print_function from pyspark.ml.regression import LinearRegression from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("LinearRegressionWithElasticNet")\ .getOrCreate() # 加载数据 training = spark.read.format("libsvm")\ .load("data/mllib/sample_linear_regression_data.txt") lr = LinearRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8) # 拟合模型 lrModel = lr.fit(training) # 输出系数和截距 print("Coefficients: %s" % str(lrModel.coefficients)) print("Intercept: %s" % str(lrModel.intercept)) # 模型信息总结输出 trainingSummary = lrModel.summary

关系抽取之远程监督算法

我是研究僧i 提交于 2019-11-30 14:44:40
一、 关系抽取综述 二、 远程监督关系抽取算法的滥觞 三、 多实例学习和分段最大池化 四、 句子级别的注意力机制 一、关系抽取综述   信息抽取是自然语言处理中非常重要的一块内容,包括实体抽取(命名实体识别,Named Entity Recognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。   这次介绍的关系抽取属于自然语言理解(NLU)的范畴,也是构建和扩展知识图谱的一种方法。   关系抽取理解起来也比较简单,比如下面图片中的第一句话:   He was in Tennessee.   首先做命名实体识别,识别出He(PER)和Tennessee(GPE)两个实体,然后找出两个实体之间的关系为:Physical-Located,最后可以把抽取出来的关系表示为三元组的形式:(He PER , Physical-Located, Tennessee GPE ),或者Physical-Located(He PER , Tennessee GPE )。 可见关系抽取包含命名实体识别在内,在技术实现上更复杂。   关系抽取从流程上,可以分为流水线式抽取(Pipline)和联合抽取(Joint Extraction)两种,流水线式抽取就是把关系抽取的任务分为两个步骤:首先做实体识别,再抽取出两个实体的关系

Python3入门机器学习 经典算法与应用(网盘免费分享)

瘦欲@ 提交于 2019-11-30 03:37:42
Python3入门机器学习 经典算法与应用(网盘免费分享) 部分课程学习资料截图: 免费课程资料领取目录: Python Flask构建微信小程序订餐系统 (网盘免费分享) Python分布式爬虫必学框架Scrapy打造搜索引擎(网盘免费分享) Python3实战Spark大数据分析及调度 (网盘免费分享) Python Flask高级编程之RESTFul API前后端分离精讲 (网盘免费分享) 链接:https://pan.baidu.com/s/1rB7h53iNOweyqWTZXQv4cg 提取码:o9el ps:免费分享,如若链接失效请加群( 注意是免费免费免费分享 ) 私聊管理员即可免费领取;群——517432778,点击加群,或扫描二维码 第1章 欢迎来到 Python3 玩转机器学习 欢迎大家来到《Python3玩转机器学习》的课堂。在这个课程中,我们将从0开始,一点一点进入机器学习的世界。本门课程对机器学习领域的学习,绝不不仅仅只是对算法的学习,还包括诸如算法的评价,方法的选择,模型的优化,参数的调整,数据的整理,等等一系列工作。准备好了吗?现在开始我们的机器学习之旅!... 1-1 什么是机器学习 试看 1-2 课程涵盖的内容和理念 试看 1-3 课程所使用的主要技术栈 试看 第2章 机器学习基础 机器学习到底是什么鬼?这一章将带领大家深入理解机器学习的世界

机器学习入门介绍

寵の児 提交于 2019-11-29 23:46:56
给初学者介绍什么是机器学习 什么是机器学习?它是如何工作的?机器学习中涉及了多少数学知识?一位工程师将这些问题都一一给予了解答。 英文原文链接: 请点击 机器学习是指不需要对计算机进行明确编程,它自动可以从实例和过往经验中不断学习的这么一个概念。你只需要不断给常规算法提供训练数据,而不是编写代码,它会基于所给数据建立起一套逻辑体系。 例如,分类算法是常见算法的一种。它可以将数据划分成多个不同的组。分类算法不仅可以分辨手写字母,还可以鉴别垃圾邮件。 一个计算机程序从某些任务T的经验E中学习,然后其对于任务T的学习表现用P衡量,随着经验学习P值会有所提高。--Tom M.Mitchell 考虑下跳棋: E = 多次下跳棋的经验 T = 下跳棋 P = 程序将赢得下次游戏的概率 机器学习的例子 在上一个5年中,得益于计算性能提升和硬件高可用性,机器学习已经被广泛研究。这些都已经实时应用并且部署到部分网站以实现更好的搜索程序和推荐系统。例如你在Amazon搜索一个产品,由于机器学习的存在,在接下去的几天Amazon会向你推荐你所搜索商品的类似产品。 以下是一些分类问题的例子,这些分类问题目标都是将鉴别对象划分为一些固定类别。 人脸识别:从图像中识别人脸(或者鉴别某人是否出席) 邮件过滤:鉴别邮件是否属于垃圾邮件 医疗诊断:诊断就诊者是否身患疾病 天气预测:预测,如,明天会下雨

signals function|KNN|SVM|average linkage|Complete linkage|single linkage

泄露秘密 提交于 2019-11-29 22:36:42
生物医疗大数据 存在系统误差使得估计量有偏,如下图红色和蓝色图形,存在随机误差使得估计量并不是同一个值,如图中除去期望之外的曲线值,为了控制随机抽样造成的误差,可以使用 p-value 决定是否服从假设检验,判断两个变量之间相关性的有无。 相关系数: 该系数广泛用于度量两个变量之间的 线性相关 程度。 建立模型: 技术种类:线性模型 & 机器学习模型 按输出数据分类:监督学习模型 & 非监督学习模型 Average linkage demo 第一个矩阵是原始数据,单未知数据结构,通过 average linkage 方法结倒推得到其数据结构,即把数据展开了。主要步骤是找到 Smallest distance (因为此两者之间的关系最简单),将距离均值作为到中间未知的距离(因为 average linkage 中的 average 决定的),随后以此类推。 除去 average linkage 方法之外还有 Max : Complete linkage&min : single linkage 。 对于 classify 来说,有 data-base 的 KNN : K 取值重要决定学习规则的范围;和 Model-oriented 其最重要的是找到区分多类数据的曲线,该曲线的函数思路可有以下三种: 1. 高次项 SVM (升维) 2. 用傅里叶变换用三角函数凑不平滑曲线 3

supervised learning|unsupervised learning

对着背影说爱祢 提交于 2019-11-29 22:26:52
监督学习即是 supervised learning ,原始数据中有每个数据有自己的数据结构同时有标签,用于 classify ,机器 learn 的是判定规则,通过已成熟的数据 training model 达到判断新点类型的目的。 非监督学习即是 unsupervised learning ,原始数据中没有附加标签,仅有数据结构, cluster 的过程是机器发现相似数据结构先去找相似 pattern ,没有新加入的数据,仅是对原始数据的描述。 来源: https://www.cnblogs.com/yuanjingnan/p/11537916.html

Java第三方工具库/包汇总

一个人想着一个人 提交于 2019-11-29 21:33:54
一、科学计算或矩阵运算库 科学计算包: JMathLib 是一个用于计算复杂数学表达式并能够图形化显示计算结果的Java开源类库。它是Matlab、Octave、FreeMat、Scilab的一个克隆,但完全采用纯Java实现。 JSci :Java 科学对象(JSci)开放源代码项目是 Durham(英国 Durham)大学粒子理论中心的三年级研究生 Mark Hale 创立的。JSci 是一个包集合,包含数学和科学类。 使用 JSci,您既可以在 AWT 中也可以在 Swing 中创建简单的条形图、折线图和饼形图。 JSci.swing.JBarGraph 、 JSci.swing.JPieChart 和 JSci.swing.JLineGraph API 组件设计得也很好,这些组件和 AWT 绘图类都遵守 MVC 体系结构。 JScience : http://jscience.org/ JScience 是一个Java的科学计算包 jLab :jLab是数值计算的Java执行环境。该jLab环境的目的是提供一个基于Matlab / Scilab喜欢的科学计算平台所支持的脚本引擎执行的Java语言。 The current jLab ND4J :在JVM上实现快速的科学计算;ND4J是一个开源的数值计算扩展 ,它将 Python中著名的 numpy

强化学习基础

£可爱£侵袭症+ 提交于 2019-11-29 21:02:07
原地址:https://www.jianshu.com/p/f4409a8b7f71 本文结构: 定义 和监督式学习, 非监督式学习的区别 主要算法和类别 应用举例 1. 定义 强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策。 它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。 让我们以小孩学习走路来做个形象的例子: 小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。 小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。 2. 和监督式学习, 非监督式学习的区别 在机器学习中,我们比较熟知的是监督式学习,非监督学习,此外还有一个大类就是强化学习: 强化学习和监督式学习的区别: 监督式学习就好比你在学习的时候,有一个导师在旁边指点,他知道怎么是对的怎么是错的,但在很多实际问题中,例如 chess,go,这种有成千上万种组合方式的情况,不可能有一个导师知道所有可能的结果。 而这时