样本容量

cs231N_课程笔记 (转)

本秂侑毒 提交于 2019-11-28 00:03:14
本文转载自:https://zhuanlan.zhihu.com/p/21560667?refer=intelligentunit 译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Neural Nets notes 2,课程教师Andrej Karpathy授权翻译。本篇教程由杜客翻译完成,堃堃进行校对修改。译文含公式和代码,建议PC端阅读。 原文如下 内容列表: 设置数据和模型 数据预处理 权重初始化 批量归一化(Batch Normalization) 正则化(L2/L1/Maxnorm/Dropout) 损失函数 小结 设置数据和模型 在上一节中介绍了神经元的模型,它在计算内积后进行非线性激活函数计算,神经网络将这些神经元组织成各个层。这些做法共同定义了评分函数(score function)的新形式,该形式是从前面线性分类章节中的简单线性映射发展而来的。具体来说,神经网络就是进行了一系列的线性映射与非线性激活函数交织的运算。本节将讨论更多的算法设计选项,比如数据预处理,权重初始化和损失函数。 数据预处理 关于数据预处理我们有3个常用的符号,数据矩阵X,假设其尺寸是[N x D](N是数据样本的数量,D是数据的维度)。 均值减法(Mean subtraction)是预处理最常用的形式。它对数据中每个独立特征减去平均值

第五周:统计量与抽样分布

无人久伴 提交于 2019-11-27 19:38:02
统计量 统计量是统计理论中用来对数据进行分析、检验的变量。 宏观量 是大量 微观量 的统计 平均值 ,具有统计平均的意义,对于单个微观粒子,宏观量是没有意义的. 相对于微观量的统计平均性质的宏观量也叫统计量。需要指出的是,描写宏观世界的 物理量 例如速度、动能等实际上也可以说是宏观量,但宏观量并不都具有统计平均的性质,因而宏观量并不都是统计量。 样本均值 样本均值(sample mean)又叫 样本均数 。即为样本的均值。 均值是表示一组数据 集中趋势 的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。 样本均值则是在总体中的样本数据的均值。 样本: 样本(sample),是指从 总体 中抽出的一部分 个体 。样本中所包含个体数目称 样本容量 或含量,用符号N或n表示。 均值: 均值是表示一组数据 集中趋势 的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。 解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数( 均值 )和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。 设 是来自正态总体 的样本, 是样本均值,则有 : 样本方差 先求出 总体 各单位变量值与其 算术平均数 的 离差 的平方,然后再对此变量取 平均数 ,就叫做 样本方差 。

各种树模型细节比较(分类树,回归树,随机森林,gbdt, xgboost)

烈酒焚心 提交于 2019-11-27 05:41:49
前言 树模型实在是个庞大的家族,里面有许多细节值得注意,怕自己遗忘,写一期总结方便以后查询。先介绍三种划分方式: 信息增益: 计算数据集D中的经验熵H(D): 计算特征A对数据集D的经验条件H(D/A): 计算休息增益差: 其中D为样本容量,pi代表当前节点D中i类样本比例。设有K个类(1,2,…,K),Ck为属于为K类样本的样本数。设特征A有j个不同的取值(a1,…,aj),根据A的取值将D划分为D1,…,Dj(代表样本数)。 信息增益率: 分裂信息计算公式: 信息增益率定义为: 选择最大增益率作为分裂特征 Gini系数: 在CART树中使用,这里CART先不展开后文会写。 从根节点开始,对节点计算现有特征的基尼指数。 对每一个特征,例如A,再对其每个可能的取值如a,根据样本点对A=a的结果划分为两个部分(这里假设A只有两个值,因为 CART是二叉树 ): 上面的式子表示的是不确定性的大小,越小表示数据纯度越高。 分类树 ID3: ID3算法的核心是在决策树各个节点上根据 信息增益 来选择进行划分的特征,然后递归地构建决策树。 具体方法: 从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益值最大的特征作为节点的划分特征; 由该特征的不同取值建立子节点; 再对子节点递归地调用以上方法,构建决策树; 到所有特征的信息增益都很小或者没有特征可以选择为止,得到最终的决策树。

Learning from class-imbalanced data: Review of methods and applications 论文阅读

南楼画角 提交于 2019-11-27 02:40:51
目录 Learning from class-imbalanced data: Review of methods and applications 摘要 Introdution 介绍 Research methodology and initial statistics 调研方法和初始统计 Research methodology 调研方法 Initial statistics 初步统计 Imbalanced data classification approaches 不平衡数据分类方法 Basic strategies for dealing with imbalanced learning 处理不平衡学习的基本方法 Preprocessing techniques 预处理技术 resampling 重采样 Feature selection and extraction 特征选择和抽取 Cost-sensitive learning 代价敏感学习 Classification algorithms for imbalanced learning 针对不平衡学习的分类算法 Ensemble methods 集成方法 Iterative based ensemble 基于迭代的集成 Parallel based ensembles 基于并行的集成 Base classifier

KNN

这一生的挚爱 提交于 2019-11-26 20:57:48
一、原理 选择距离测试样本最近的k个样本,出现频数最大的样本的类别就是该测试样本的类别。 二、优缺点 优点:简单、快速、易于实现; 缺点:计算量大, 数据不平衡 时预测偏差比较大; 三、不平衡问题怎么解决? 数据不平衡时,距离测试样本最近的k个样本中,可能 大数量类别样本 最多,这样导致预测错误。 解决:使用权值,近的权值大,远的权值小; 四、计算量大怎么解决? 先将样本集按距离进行分组,然后计算出质心,找到离测试样本最近的质心,然后在这个组里面进行KNN算法。 适用于样本容量大的情况。 五、K是如何选取的? 过小容易过拟合,过大容易欠拟合。一般是选较小的值,采用交叉验证进行调优。 来源: https://www.cnblogs.com/pacino12134/p/11333172.html

Tensorflow实战10:Tensorflow实现Word2Vec

微笑、不失礼 提交于 2019-11-26 13:19:27
介绍 \quad Word2Vec也称Word Emneddings,中文有很多叫法,比较普遍的是"词向量"或“词嵌入”。Word2Vec是一个可以将语言文字转化为向量形式表达(Vector Respresentations)的模型,我们先来看看为什么要把字词转为向量。图像,音频等数据天然可以编码并存储为稠密向量的形式,比如图片是像素点的稠密矩阵,音频可以转为声音信号的频谱数据。自然语言处理在Word2Vec出现之前,通常将字词转为离散的单独的符号,比如“中国”转为编号为5178的特征,将“北京”转为3978的特征。这即是One-Hot Encoder,一个词对应一个向量(向量中只有一个值为1,其他为0),通常需要将一篇文章中每一个词都转化为1个向量,而整篇文章则变为一个稀疏矩阵。对文本分类模型,我们使用Bag of Words模型,将文章对应的稀疏矩阵合并为一个向量,即把每一个词对应的向量加到一起,这样只统计每个词出现的次数,比如中国出现23次,那么第5178个特征为23,"北京"出现2次,那么第3987个特征为2。 \quad 使用One-Hot Encoder有一个问题,即我们队特征的编码往往是随机的,没有提供任何关联信息,没有考虑到字词间可能存在的关系。例如,我们队"中国"和"北京"的从属关系,地理位置关系等一无所知,我们从5178和3987这2个值看不出任何信息。同时