高斯

【机器学习】半监督学习

笑着哭i 提交于 2020-01-22 21:10:40
传统的 机器学习 技术分为两类,一类是无监督学习,一类是监督学习。 无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。 但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。 这就促使能同时利用标记样本和未标记样本的半监督学习技术迅速发展起来。 半监督学习理论简述: 半监督学习有两个样本集,一个有标记,一个没有标记.分别记作 Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,L<<U. 1. 单独使用有标记样本 ,我们能够生成有监督分类算法 2. 单独使用无标记样本 ,我们能够生成无监督聚类算法 3. 两者都使用 ,我们希望在1中加入无标记样本,增强有监督分类的效果;同样的,我们希望在2中加入有标记样本,增强无监督聚类的效果. 一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类.也就是在1中加入无标记样本,增强分类效果. 半监督学习的动力,motivation 某人讨论的时候,总是教导我们的词,motivation.一下午四五遍地强调写论文要有motivation.下面说说半监督学习的motivation. 1. 有标记样本难以获取 . 需要专门的人员,特别的设备

国产数据库(Gbase,神通,高斯,达梦)常用数据类型

瘦欲@ 提交于 2020-01-20 03:27:51
因项目需要适配国产数据库,网上资料太少,自己整理了一下几个国产数据类常用数据类型,后续会记录一些适配遇到的问题,方便日后查看,也希望给同样遭遇的小伙伴一点点参考 1 Gbase8s数据库 分类 数据类型 说明 范围 数值型 INT/INTEGER 整数 -2,147,483,647 至 2,147,483,647 DECIMAL(p,s) 存储实数的定点小数值 在小数部分中最多 20 位有效数字,或在小数点的左边最多 32 位有效数字。 NUMERIC(p,s) DECIMAL(p,s) 的符合 ANSI 的同义词 p最大精度是38位(十进制) FLOAT 双精度浮点数值 存储最多带有 16 位有效数字的双精度浮点数值 SERIAL 存储数据库服务器生成的 4 字节正整数 从 1 至 2,147,483,647 默认从1开始,可以设置初始值serial(n) MONEY(p,s) 定点货币值 数据自带货币符号 时间类型 DATE YYYY-MM-DD 1 年 1 月 1 日直至 9999 年 12 月 31 日 DATETIME (年、月、日)和每日时间(小时、分、秒和几分之一秒) 1 年至 9999 年 字符串类型 CHAR 定长字符串 0-32767字节 NCHAR 定长度符串 0-32,767字节 VARCHAR 变长字符串 0-255 字节 LVARCHAR 可变长字符串

如何用python实现高斯分布

倾然丶 夕夏残阳落幕 提交于 2020-01-20 01:24:56
简单了解高斯分布 百度百科里边解释叫“正态分布”,也称常态分布,若随机变量x服从一个数学期望μ,方差σ²的正态分布,记为N(μ,σ²),其概率密度函数为正太分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度,当μ=0,σ=1时的正态分布是标准正态分布。 一维正态分布 若随机变量X服从一个位置参数μ,尺度参数为σ的概率分布,且其概率密度函数为: 则这个随机变量就称为正态随机变量,正态随机变量服从的分布就是正态分布,记作X-N(μ,σ²),读作X服从N(μ,σ²),或X服从正态分布。 正态分有两个参数,即期望μ和标准差σ,σ²为方差 正态分布是具有两个参数μ和σ²的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数 σ²是此随机变量的方差,所以正态分布记作N(μ,σ²) μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。 σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。 标准正态分布 当μ=0,σ=1时,正态分布就称为标准正态分布 其图像就长这个样子!!!! 单元正态分布有以下规律: σ越大

噪声相关笔记

ぃ、小莉子 提交于 2020-01-19 23:33:00
噪声 : 不期望接收到的信号(相对于期望接收到的信号) 白噪声 : 功率谱密度为常数的随机信号或随机过程,功率谱密度在整个频域内均匀分布的噪声。此信号在各个频段上的功率是一样的。相对的,其它不具有这一性质的噪声信号(功率谱密度不均匀)被称为有色噪声。(频谱是一个常数) 高斯噪声 : 是一种服从高斯分布的随机噪声。 高斯白噪声 : 幅度统计规律服从高斯分布而功率谱为常数的噪声。 仿真时经常采用高斯白噪声,这是因为实际系统(包括雷达和通信系统等大多数电子系统)中的主要噪声是热噪声,而热噪声是典型的高斯白噪声,高斯噪声下的理想系统都是线性系统 白噪声不必服从高斯分布,高斯分布的噪声不一定是白噪声 加性噪声 : 一般指热噪声、散弹噪声等。它们与信号的关系是相加,不管有没有信号,噪声都存在。一般通信中把加性随机性看成是系统的背景噪声。 乘性噪声 : 一般由信道不理想引起的。它们与信号的关系是相乘,信号在,噪声在;信号不在,噪声也就消失。乘性随机性看成是系统的时变性或者非线性造成的。 乘性噪声普遍存在于现实世界的图像应用 当中。 高斯噪声:是一种随机噪声,其时域内信号幅度(实数域是绝对值,复数域是模)的统计规律服从高斯分布 白噪声:白是指该信号的功率谱在整个频域内为常数的噪声,其傅里叶反变换是单位冲击函数,其自相关函数也是冲击函数(说明这种信号只与自己相关,与它的时延信号就不相关)

广义线性模型(Generalized Linear Models)

旧城冷巷雨未停 提交于 2020-01-15 05:47:23
前面的文章已经介绍了一个回归和一个分类的例子。在 逻辑回归 模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族。 指数分布族(The Exponential Family) 如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量;h(x)称为基础度量值(base measure); η称为分布的自然参数(natural parameter),也称为标准参数(canonical parameter); T(y)称为充分统计量,通常T(y)=y; a(η)称为对数分割函数(log partition function); 本质上是一个归一化常数,确保 概率和为1。 当T(y)被固定时,a(η)、b(y)就定义了一个以η为参数的一个指数分布。我们变化η就得到这个分布的不同分布。 伯努利分布属于指数分布族。伯努利分布均值为φ,写为Bernoulli(φ),是一个二值分布,y ∈ {0, 1}。所以p(y = 1; φ) = φ; p(y = 0; φ) = 1 − φ。当我们变化φ就得到了不同均值的伯努利分布。伯努利分布表达式转化为指数分布族表达式过程如下: 其中, 再举一个高斯分布的例子,高斯分布也属于指数分布族。由高斯分布可以推导出线性模型(推导过程将在EM算法中讲解)

论文阅读笔记四十八:Bounding Box Regression with Uncertainty for Accurate Object Detection(CVPR2019)

北城以北 提交于 2020-01-15 03:32:28
论文原址: https://arxiv.org/pdf/1809.08545.pdf github: https://github.com/yihui-he/KL-Loss 摘要 大规模的目标检测数据集在进行ground truth 框标记时仍存在这歧义,本文提出新的边界框的回归损失针对边界框的移动及位置方差进行学习,此方法在不增加计算量的基础上提高不同结构定位的准确性。而学习到的位置变化用于在进行NMS处理时合并两个相邻的边界框。 介绍 在大规模目标检测数据集中,一些场景下框的标记是存在歧义的,十分不利于边界框的标记及边界框回归函数的学习。 图下图(a,c),一些框的标记并不是很准确。当物体被遮挡时,边界框更不清晰,如下图(d)所示。 目标检测包含分类及定位是一个多任务的学习问题。Faster R-CNN,Cascade R-CNN及Mask R-CNN依靠边界框回归来进行目标定位。传统的基于Smooth L1损失的边界框回归损失并未考虑ground truth 模糊的情形。一般来说分类的分数越高,其边界框的回归应更为准确,然而,这种情况很少,如下图所示。 本文提出了KL损失用于解决上述问题,本文新提出的边界框损失-KL损失,可以同时学习边界框的回归以及定位的不确定性。为了捕捉边界框预测的不确定性,首先将边界框的预测及ground truth 框分别看作时高斯分布及Dirac

开发和评价一个异常检测系统

人走茶凉 提交于 2020-01-14 18:34:48
解决问题:此次练习是为了检测服务器的吞吐量(throughput)和响应延迟(latency)是否有异常。 问题背景:收集307个训练样本,猜测全都是正常的(但是实际中可能有几个异常点),所以需要用高斯分布检测异常样本。 可以先用2D散点图查看分布情况(part1图),用测试机拟合高斯分布然后配合验证集的得到的epision找到异常点, 最后应用到多维度的大数据中。 开发和评价一个异常检测系统 1 part2 :估计高斯分布参数 用训练集获得均值mu和方差sigma用来构建p(x)函数 2. part3 : 选择阀值 epision 使用带标签的交叉验证集,根据F1值来确定epision 3. part3: 找出异常值outliers 选出 epision 后,针对测试集进行异常值预测(outliers=P(x) < epision ),同时可计算下测试集的F1值,或者召回率与精确率 import pandas as pd import matplotlib.pyplot as plt import numpy as np import seaborn as sns;sns.set() from sklearn.model_selection import train_test_split from scipy.io import loadmat from mpl_toolkits

单高斯模型

假装没事ソ 提交于 2020-01-14 15:01:16
当样本数据X是一维数据时,高斯分布遵从以下概率密度函数: P ( x ∣ θ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 P\left(x|\theta\right) =\frac{1}{2\pi \sigma ^{2}}e^{-{\frac{(x-\mu)^2}{2\sigma^{2}}}} P ( x ∣ θ ) = 2 π σ 2 1 ​ e − 2 σ 2 ( x − μ ) 2 ​ μ \mu μ 为均值, σ \sigma σ 标准差 多维数据时,高斯分布遵从以下概率密度函数: P ( x ∣ θ ) = 1 ( 2 π ) D 2 e − ( x − π ) T ∑ ( x − μ ) − 1 2 P\left(x|\theta\right) =\frac{1}{(2\pi )^{\frac {D}{2}}}e^{-{\frac{(x-\pi)^T\sum(x-\mu)^{-1}}{2}}} P ( x ∣ θ ) = ( 2 π ) 2 D ​ 1 ​ e − 2 ( x − π ) T ∑ ( x − μ ) − 1 ​ D为数据维度 ∑ \sum ∑ 为协方差 μ \mu μ 为均值 来源: CSDN 作者: AI_LX 链接: https://blog.csdn.net/AI_LX/article/details/103968243

压缩感知理论模型

可紊 提交于 2020-01-14 14:32:02
本文依据压缩感知群中Ammy讲解整理所得 最初的压缩感知是由Candès、Donoho他们提出来的问题。最初压缩感知那几篇文章里的模型 : y = Φ ∗ x ( 模 型 一 ) 都是从纯数学角度来考虑的,问题也是针对稀疏信号x研究的。研究的是:什么样的 Φ ,以怎样的方式,能够从 y 中恢复 x 。 在后续的研究过程中发现很多信号x压根不稀疏,自然也就不满足模型一的要求了。经过研究发现,虽然信号x不稀疏但是可以通过某种正交变换使信号变的稀疏。这也就产生了第二种稀疏模型: y = Φ ∗ Ψ T ∗ x ( 模 型 二 ) θ = Ψ T ∗ x :现将信号 x 进行某种正交变换,得到稀疏信号 θ 。其中 θ 是稀疏的, Ψ T 是 Ψ 的转置,也就是 Ψ 的逆 Ψ ′ 。 y = Φ ∗ θ :通过变换后的信号 θ 满足了模型一的条件。 y = Φ ∗ Ψ T ∗ x :将 θ 代入到模型一也就得到了模型二了。 这种稀疏变换的模型,叫做 a n a l y s i s m o d e l ,将 x 利用 Ψ T 分解成 θ 。例如,小波分解;例如,傅里叶分解。 随着稀疏表示模型的发展,人们发现不仅仅能够通过变换得到稀疏的信号还可以通过一个字典得到稀疏信号 x = D ∗ θ ( θ 是稀疏的,而 D 非正交)。Candès在09年的一篇文章中给出了压缩感知在过完备字典下的表示:

判别模型、生成模型与朴素贝叶斯方法

主宰稳场 提交于 2020-01-14 02:17:18
转载时请注明来源: http://www.cnblogs.com/jerrylead 1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为 ,在参数 确定的情况下,求解条件概率 。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊的特征首先学习出一个山羊模型,然后根据绵羊的特征学习出一个绵羊模型。然后从这只羊中提取特征,放到山羊模型中看概率是多少,再放到绵羊模型中看概率是多少,哪个大就是哪个。形式化表示为求 (也包括 ,y是模型结果,x是特征。 利用贝叶斯公式发现两个模型的统一性: 由于我们关注的是y的离散值结果中哪个概率大(比如山羊概率和绵羊概率哪个大),而并不是关心具体的概率,因此上式改写为: 其中 称为后验概率, 称为先验概率。 由 ,因此有时称判别模型求的是条件概率,生成模型求的是联合概率。 常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。 常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。 这篇博客较为详细地介绍了两个模型: