监督学习

《统计学习方法》学习笔记（1）

阅读更多关于《统计学习方法》学习笔记（1）

本文主要参考书籍为《统计学习方法》（李辉）。统计学习包括：监督学习；非监督学习；半监督学习；强化学习。监督学习需要利用训练数据集，如果没有训练数据集，就不能采用监督学习的方法。文章来源: 《统计学习方法》学习笔记（1）

转发 Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective

阅读更多关于转发 Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective

原文：https://blog.csdn.net/u014451076/article/details/80171993 Abstract 监督学习的方法显著物体检测方法通常需要大量的标注(labor-intensive)，并且可能阻碍了学习到的模型的泛化能力。本文提出一种新颖的若监督方法，从别的弱监督方法产生的结果进行学习，这些结果通常带有noise，因此本文提出y = y’ + n的思想，学习一个潜在的显著性预测模块和一个噪声模块。 Movitation 非监督方法虽然在性能上比不过监督方法，但是通常是数据集独立的，可以应用到自然环境中。一些存在的非监督方法的结果虽然有噪声，但是却包含有用的信息。 Framwork 训练策略：第一轮训练，对noise model进行零方差初始化，训练FCN到收敛。 Experiment Thinking 如果是对于强监督方法，感觉比较难去做类似的工作。版权声明：新建了专注于语义分割的QQ群704803384，欢迎交流!!! https://blog.csdn.net/u014451076/article/details/80171993 文章来源: 转发 Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective

分类算法（二）―― FastText

阅读更多关于分类算法（二）―― FastText

原理介绍 fasttext是facebook开源的一个词向量与文本分类工具，在2016年开源，典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。 fastText的架构和word2vec中的CBOW的架构类似，因为它们的作者都是Facebook的科学家Tomas Mikolov，而且确实fastText也算是words2vec所衍生出来的。安装重点说问题，上代码。解决方法代码示例训练数据和测试数据来自网盘： https://pan.baidu.com/s/1jH7wyOY https://pan.baidu.com/s/1slGlPgx 参考链接： https://blog.csdn.net/john_bh/article/details/79268850 https://blog.csdn.net/grafx/article/details/78697881 https://blog.csdn.net/yick_liao/article/details/62222153 https://blog.csdn.net/sinat_26917383/article/details/54850933 https://blog.csdn.net/lxg0807/article/details/52960072 文章来源

深度学习个人理解

阅读更多关于深度学习个人理解

实现人工智能的方法有很多种，当前最热门的一种就是通过深度学习来训练神经网络。深度学习这个词指的是训练大型神经网络。深代表着非常大的神经网络。那么神经网络到底是什么呢? 如下图：假设你有一个数据集（包含了六个房屋的面积和价格数据）。你想要找到一个方法（即构建一个函数）来通过面积预测出价格。如果你熟悉线性回归（不熟悉也没关系，你就把它看作是一个数学理论），那么可以根据这个理论在实际数据附近画出一条直线，如上图中红色的线，它附近的蓝色的小圆圈代表着六个房子的面积与房价对应的点，即根据这条线（这个函数）来找某一个面积对应的房价，那么除了些误差外，基本上是准的。理解：大量的数据通过一个函数进行处理分析，找到相同得规则，然后再根据其他得数据分析出最可能得结果，这就是机器学习得一个大概得流程。监督学习：判断是否是监督学习，就看输入数据是否有标签。输入数据有标签，则为有监督学习，没标签则为无监督学习。分类（classification）这种机器学习算法就是一种监督学习。对于分类，输入的训练数据有特征（feature），有标签（label）。也就是我们前面文章中的输入x和输出y。每一个x样本都对应着一个y（输出）标签。所谓的学习，其本质就是找到特征和标签间的关系（mapping），也就是找规律。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签

SVM

阅读更多关于 SVM

二类分类模型模型：在特征空间上的间隔最大的线性分类器求解凸优化（凸二次规划） 1、线性可分支持向量机利用间隔最优化求最优分离超平面，解是唯一的； $$\omega ^{\ast }\cdot x+b^{\ast }=0$$ 分类决策函数 $$f(x)=sign(\omega ^{\ast }\cdot x+b^{\ast })$$ 点到超平面的距离，反映了分类预测的确信程度函数间隔：（硬间隔） $\widehat{\gamma }=\underset{i}{min}\widehat{\gamma} _{i}$ $\widehat{\gamma} _{i}=y_{i}(\omega x_{i}+b)$ 几何间隔 $$\widehat{\gamma }=\underset{i}{min}\widehat{\gamma} _{i}=\frac{\omega }{\left \| \omega \right \|}\cdot _{i}+\frac{b}{\left \| \omega \right \|}$$ 无论给$\omega x_{i}+b=0$左右乘入，并不会改变分类结果；最大间隔分离超平面（几何间隔）存在唯一性约束最优化问题 $\underset{w,b}{max}\gamma$ $s.t. y_{i}(\frac{w}{\left \| w \right \|}x_

TensorFlow 房价预测

阅读更多关于 TensorFlow 房价预测

TensorFlow 房价预测前置知识：监督学习（Supervised Learning）监督学习是机器学习的一种方法，指从训练数据（输入和预期输出）中学到一个模型（函数），并根据模型可以推断新实例的方法。函数的输出通常为一个连续值（回归分析）或类别标签（分类）。前置知识：监督学习典型算法前置知识：线性回归在统计学中，线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变　　量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。理想函数：

监督学习分类模型逻辑回归

阅读更多关于监督学习分类模型逻辑回归

逻辑斯谛回归 - 线性回归的问题一一怎样判断肿瘤是否恶性? - 线性回归健壮性不够，一旦有噪声，立刻“投降” 逻辑斯蒂回归 ―― 分类问题 Sigmoid函数（压缩函数） - 我们将线性回归拟合出来的值用压缩函数进行压缩，压缩完成后　　用0.5做一个概率的判定边界，就能把样本分成两类，即正样本中z的正负决定了 g(z)的值最后是大于0.5还是小于0.5；　　即z大于0时,g(z)大于0.5, z小于0时,g(z)小于0.5 　　也就使得分类边界两边分别对应g(z)>0.5和g(z)<0.5,因此根据g(z)与0.5的大小关系，　　就可以实现分类逻辑斯谛回归损失函数 -平方损失函数的问题损失函数这样，我们获得了一个凸函数。梯度下降法求解

阅读更多关于监督学习

构建分类器基于 Na veBayse 高斯模型的机器学习分类器 #导入数据 import sklearn from sklearn . datasets import load_breast_cancer data = load_breast_cancer () target_names = data [ 'target_names' ] target = data [ 'target' ] feature_names = data [ 'feature_names' ] data = data [ 'data' ] 字典键列表分类标签名称( target_names ) 实际标签( targets ) 属性/功能名称( feature_names ) 属性/功能( data ) #组织数据 from sklearn . model_selection import train_test_split train , test , train_labels , test_labels = train_test_split ( data , target , test_size = 0.4 , random_state = 42 ) #建模 from sklearn . naive_bayes import GaussianNB gnb = GaussianNB () model

数据挖掘与数据仓库――分类

阅读更多关于数据挖掘与数据仓库――分类

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/budding0828/article/details/90311845 分类算法什么是分类一些常见的概念：训练集(Training data)：用于训练模型(的参数，如神经网络的各层权重和偏置，线性回归分析的系数); 验证集(Validation data)：用于调整超参数(Hyper-Parameters，如神经网络的宽度和深度、学习率等); 测试集(Test data)：用于评价模型本身的有效性（准确率等）训练误差(Training error)：分类器在训练集上的误差。泛化误差(Generalization error，out-of-sample error)：分类器在未见样本（不在训练集中的样本）上的误差。对于数据集的划分划分法: 训练集与测试集把样本划分成2个独立的数据集合, 如, 训练集 (2/3), 测试集(1/3)。适用于大规模的数据样本。交叉验证(Cross-validation) 把数据集合划分成k 个子样本；使用k - 1 个子样本作为训练集，另一个作为测试样本―k-折交叉验证。适用于中等规模的数据。留一测试(Leave One Out， k = n) 适用于小规模数据。泛化误差的偏差/方差分解、过拟合、欠拟合以回归为例

Spark大数据处理系列之Machine Learning

阅读更多关于 Spark大数据处理系列之Machine Learning

Spark的机器学习库(Spark MLlib)，包括各种机器学习算法：协同过滤算法、聚类算法、分类算法和其他算法。在前面的《Spark大数据处理》系列文章，介绍Apache Spark框架，介绍如何使用Spark SQL库的SQL接口去访问数据，使用Spark Streaming进行实时流式数据处理和分析。在本篇文章，作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。Spark机器学习API包含两个package：spark.mllib 和spark.ml。 spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有：相关性、分类和回归、协同过滤、聚类和数据降维。spark.ml提供建立在DataFrame的机器学习API，DataFrame是Spark SQL的核心部分。这个包提供开发和管理机器学习管道的功能，可以用来进行特征提取、转换、选择器和机器学习算法，比如分类和回归和聚类。本篇文章聚焦在Spark MLlib上，并讨论各个机器学习算法。下篇文章将讲述Spark ML以及如何创建和管理数据管道。机器学习和数据科学机器学习是从已经存在的数据进行学习来对将来进行数据预测，它是基于输入数据集创建模型做数据驱动决策。数据科学是从海里数据集

订阅监督学习