误差分析

CDA 数据分析师 level1 part 5

断了今生、忘了曾经 提交于 2019-12-06 16:30:35
数据分析师-机器学习 数据分析师-机器学习 机器学习概念 机器学习概念 ●机器学习研究如何让计算机不需要明确的程序也能具备学习能力。( Arthur Samuel,1959) ●一个计算机程序在完成了任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称其为学习。(Tom Mitchell11977) 虽然机器学习的研究来源于人工智能领域,但是机器学习的方法却应用于数据科学领域,因此我们将机器学习看作是一种数学建模更合适。 机器学习的本质就是借助数学模型理解数据。当我们给模型装上可以适应观测数据的可调参数时,“学习”就开始了

时间序列分析和预测 (转载)

霸气de小男生 提交于 2019-12-05 12:41:48
一、时间序列及其分解 时间序列(time series)是同一现象在不同时间上的相继观察值排列而成的序列。根据观察时间的不同,时间序列中的时间可以是可以是年份、季度、月份或其他任何时间形式。 时间序列: (1)平稳序列(stationary series) 是基本上不存在趋势的序列,序列中的各观察值基本上在某个固定的水平上波动,在不同时间段波动程度不同,但不存在某种规律,随机波动 (2)非平稳序列(non-stationary series) 是包含趋势、季节性或周期性的序列,只含有其中一种成分,也可能是几种成分的组合。可分为:有趋势序列、有趋势和季节性序列、几种成分混合而成的复合型序列。

集成学习

人走茶凉 提交于 2019-12-05 11:43:49
集成学习基础 集成学习分类 Boosting 采用串行的方式,各个基学习器之间有依赖 基本思路:将基学习器层层叠加,每一层训练时,对前一层分错的样本,给予更高的权重。测试时,根据各层学习器的结果加权融合 AdaBoost Bagging 各基学习器之间无强依赖,可以并行训练 基于决策树基学习器的Random Forest 将训练集分为若干子集(训练集较小时可能有交集)训练基学习器 偏差和方差 定量描述模型的性能(欠拟合和过拟合) 偏差: 由所有采样得到的大小为 \(m\) 的训练数据集训练出来的所有模型的输出的平均值和真实模型输出之间的偏差 通常是由于对学习算法做了错误的假设导致

吴恩达《深度学习》第三门课(2)机器学习策略二

こ雲淡風輕ζ 提交于 2019-12-05 00:49:36
2.1进行误差分析 (1)一识别猫为案例,错误率为10%,这时系统还可以有较大提升空间,这时该往哪方面努力呢?可以通过误差分析,具体可以拿出100个分类错误的样本,然后利用表格统计每个样本分类错误的原因(如下图所示),比如很模糊,狗和猫很像,有滤镜等,一个样本出错可以同时有多个原因,统计看因为什么原因导致分类错误的比例最高,那么就应该着重花功夫在那上面。 (2)根据上面的统计也可以预估出如果完美解决该问题可以带来多大性能的提升,比如100张样本中有5张图把狗误认为了猫,所以即使解决了狗识别成猫的问题,最终能带来的性能提升是从90%到90.5%。 2.2清楚标记错误的数据 (1

销量预测中的误差指标分析

折月煮酒 提交于 2019-12-04 20:52:44
销量预测中的误差指标分析 月儿弯弯爱太傻 关注 0.3262018.09.14 14:59:19字数 2,269阅读 2,586 引言 本文介绍了一些销量预测相关的误差指标. 它们可以被分为两类: 绝对误差和绝对百分比误差. 前2节介绍销量预测问题及相关概念. 第3节我们介绍3种绝对误差, 并比较它们对异常值的敏感性. 由于绝对误差不适合比较多个商品或多个时段的预测结果, 在第4节我们介绍3种百分比误差. 在这一节, 我们重点强调了它们的优点和缺陷. 第5节是误差指标比较结果的汇总. 在第6节中, 我们用一个例子充分说明了百分比误差容易引发的问题,

投影矩阵和最小二乘

不问归期 提交于 2019-12-04 16:09:02
转载: https://www.cnblogs.com/bigmonkey/p/9897047.html 一维空间的投影矩阵   先来看一维空间内向量的投影:   向量p是b在a上的投影,也称为b在a上的分量,可以用b乘以a方向的单位向量来计算,现在,我们打算尝试用更“贴近”线性代数的方式表达。   因为p趴在a上,所以p实际上是a的一个子空间,可以将它看作a放缩x倍,因此向量p可以用p = xa来表示,只要找出x就可以了。因为a⊥e,所以二者的点积为0:   我们希望化简这个式子从而得出x:   x是一个实数,进一步得到x:   a T b和a T a都是点积运算,最后将得到一个标量数字

K-近邻算法(KNN)

a 夏天 提交于 2019-12-04 08:13:05
K-近邻算法 K-K个 N-nearest-最近 N-Neighbor 来源:KNN算法最早是由Cover和Hart提出的一种分类算法 定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 距离公式 两个样本的距离可以通过如下公式计算,又叫欧式距离 KNN算法流程总结 根据K个邻居判定你的类别 1.计算当前样本与所有样本距离 2.距离从小到大排序 3.取前K个邻居 4.K个邻居投票,统计投票结果(A,B) 5.根据投票结果值出现频率高类别作为最终类别 K近邻算法api初步使用 机器学习流程 1.获取数据 2.数据基本处理 3

最小二乘法推导

天涯浪子 提交于 2019-12-04 07:18:15
最小二乘法 最小二乘法可以更广泛地应用于非线性方程中,我们可以使用一些已知的离散的点,拟合出一条与这些离散点最为接近的曲线,从而可以分析出这些离散点的走向趋势。 设x和y之间的函数关系由直线方程:   y=ax+b 公式中有两个待定参数,b代表截距,a代表斜率。问题在于,如何找到“最合适”的a和b使得尽可能多的数据落在或者更加靠近这条拟合出来的直线上; 我们关心的是方程中的a和b,也就是说,在这个待定的方程中,a和b才是所求的变量,它们可以描述出x和y的关系。 所以我们接下来的任务就是找到一组最好的a和b。 我们对a和b的要求就是,使得所有x和y相对拟合直线的误差总和最小。也就是说

回归损失函数:L1,L2,Huber,Log-Cosh,Quantile Loss

谁说我不能喝 提交于 2019-12-03 09:52:38
回归损失函数:L1,L2,Huber,Log-Cosh,Quantile Loss 2019-06-04 20:09:34 clover_my 阅读数 430 更多 分类专栏: 阅读笔记 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/clover_my/article/details/90777964 回归损失函数:L1,L2,Huber,Log-Cosh,Quantile Loss 机器学习中所有的算法都需要最大化或最小化一个函数,这个函数被称为“目标函数”。其中

分类预测算法评价(初识)

随声附和 提交于 2019-12-03 09:36:45
分类于预测算法评价 分类与预测模型对训练集进行预测而得出得准确率并不能很好得反映预测模型未来得性能,为了有效判断一个预测模型得性能表现,需要一组没有参与预测模型建立得数据集并在该数据集上评价预测模型得准确率,这组独立耳朵数据集叫做测试集,模型预测效果评价,通常用相对绝对误差,平均绝对误差,均方误差,均方根误差来衡量. 绝对误差与相对误差 设Y表示实际值, Ý表示预测值, 则称E为绝对误差,计算公式如下: Ε = Y - Ý e为相对误差, 计算公式如下 e = (Y - Ý) / Y 有时也可以用误差百分数来表示 e = (Y - Ý) / Y * 100% 这是一种直观得误差表示方法

工具导航Map

JSON相关