总体方差

高等数理统计(五)

有些话、适合烂在心里 提交于 2020-01-24 23:47:04
引言   【比较官方的简介】数理统计学是一门以 概率论为基础 ,应用性很强的学科。它研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。   【简单的讲】,就是 通过样本分析来推断整体。   【意义或者重要性】在这个大数据时代,数据是非常重要的。怎样挖掘数据内部的规律或者隐含的信息,变得尤为重要。当时我们是不可能获得整体的数据的,所以我们只能通过抽取样本,进而通过样本来推断整体的规律。   【目录】    第一章、样本与统计量      一、引言:      二、总体与样本:      三、统计量:      四、常用分布:    第二章、参数估计     一、引言:      二、点估计—— 矩估计法 :     三、点估计—— 极大似然估计 :     四、估计量的优良性准则     五、区间估计——正态分布        1、引入       2、 单个正态总体参数的区间估计        3、两个正态总体的区间估计     六 、区间估计——非正态分布:       1、大样本正态 近似法       2、二项分布       3、泊松分布    第三章、假设检验     一、引言:     二

应该要知道的几个统计学定义.

谁说我不能喝 提交于 2020-01-24 23:43:37
//我们先来看一下几个名词基本解释. 1.标准差(Standard deviation) 简单来说,标准差是一组数值自平均值分散程度的一种测量观念.一个较大的标准差,代表大部分的数值和其平均值之间差异较大,一个较小的标准差,代表这些数值较接近平均值. 公式: 例如: 两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差. 标准差可以当作不确定性的一种测量.例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度.当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色.如果测量平均值与预测值相差太远(同时与标准差数值做比较) 则认为测量值与预测值互相矛盾.这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确. 标准差应用于投资上,可作为量度回报稳定性的指标.标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高.相反,标准差数值越小,代表回报较为稳定,风险亦较小. 例如: A,B两组各有6位学生参加同一次语文测验,A组的分数为95,85,75,65,55,45  B组的分数为73,72,71,69,68,67.这两组的平均数都是70,但A组的标准差为17.078分,B组的标准差为2.160分,说明A组学生之间的差距要比B组学生之间的差距大得多. 2.方差.

【概率论与数理统计】小结6 - 大数定理与中心极限定理

可紊 提交于 2020-01-24 23:42:44
注 :这两个定理可以说是概率论中最重要的两个定理。也是由于中心极限定理的存在,使得正态分布从其他众多分布中脱颖而出,成为应用最为广泛的分布。这两个定理在概率论的历史上非常重要,因此对于它们的研究也横跨了几个世纪(始于18世纪初),众多耳熟能详的大数学家都对这两个定理有自己的贡献。因此,这两个定理都不是单一的定理。不同的大数定理和中心极限定理从不同的方面对相同的问题进行了阐述,它们条件各不相同,得到的结论的强弱程度也不一样。 1. 大数定理(law of large numbers,LLN) 图1-1,伯努利(1655-1705) 大数定律可以说是整个数理统计学的一块基石,最早的大数定律由伯努利在他的著作《推测术》中提出并给出了证明。这本书出版于伯努利去世后的1713年。数理统计学中包含两类重要的问题——对概率p的检验与估计。大数定律的本质是一类极限定理,它是由概率的统计定义“频率收敛于概率”引申而来的。简单来说就是n个独立同分布的随机变量的观察值的均值$\bar{X}$依概率收敛于这些随机变量所属分布的理论均值,也就是总体均值。 举一个古典概率模型的例子:拿一个盒子,里面装有大小、质地一样的球a+b个,其中白球a个,黑球b个。这时随机地从盒子中抽出一球(意指各球有同等可能被抽出),则“抽出的球为白球”这一事件A的概率p=a/(a+b).但是如果不知道a、b的比值,则p也不知道

cnn-过拟合(over-fitting)

狂风中的少年 提交于 2020-01-21 08:30:10
概念 为了得到一致假设而使假设变得过度严格称为过拟合[1] 给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 过拟合的示意图: 在上图中训练样本存在噪声,为了照顾它们,分类曲线的形状非常复杂,导致在真实测试时会产生错分类. 直白理解:在神经网络中,首先根据训练数据集进行训练,训练结果的好坏,通过一个损失函数的对预测值和实际真实值进行判断,当预测值和真实值对比,损失最小时,即拟合的很好,则训练的结果OK,如上图,蓝色的分类和红色的分类,通过复杂的曲线,完全在训练集上分类准确。其实用这个曲线去分类或预测实际(测试)数据集时,则会出现不准确的现象,则这种情况就是过拟合。如下图: 上图a,在训练集上,中间的虚线,已完全分开了小圆点和三角形,但是在测试集上(上图b),虚线还是把原点分类到了三角形这边。 表1 过拟合与欠拟合的判断标准 过拟合原因 (1)建模 样本 选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则; (2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则; (3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立; (4)参数太多,模型复杂度过高; (5)对于 决策树 模型

Kdtree(K-dimension tree)学习

你。 提交于 2020-01-08 10:47:41
以下总结纯属个人学习理解,如有不对还望留言改正。参考文章博客地址如下: https://blog.csdn.net/likika2012/article/details/39619687 https://blog.csdn.net/zhjchengfeng5/article/details/7855241 https://www.joinquant.com/view/community/detail/c2c41c79657cebf8cd871b44ce4f5d97 https://zhuanlan.zhihu.com/p/22557068 https://www.cnblogs.com/dirge/p/6091241.html https://leileiluoluo.com/posts/kdtree-algorithm-and-implementation.html 感谢几位大神的详细总结; 首先要学习kdtree就要先理解二叉树,因为实现kdtree的数据结构是基于二叉树思想来实现的。 二叉树顾名思义就是一个根节点有两个子节点;二叉树思想: 二叉查找树(Binary Search Tree,BST),是具有如下性质的二叉树(来自wiki): 1)若它的左子树不为空,则左子树上所有结点的值均小于它的根结点的值; 2)若它的右子树不为空,则右子树上所有结点的值均大于它的根结点的值;

数据学习(十)-假设检验

北慕城南 提交于 2020-01-06 14:44:54
目录 1.假设检验的基本问题 2.一个总体参数的检验 3. 两个总体参数的检验 1.假设检验的基本问题 假设检验是推断统计的另一项重要内容,它与参数估计类似,但角度不同,参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。 1.1 假设的陈述 1.对总体参数的具体数值所作的陈述,称为假设,或称为统计假设。 2. 先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。 3. 通常将研究者想收集证据予以支持的假设称为备择假设,或称为研究假设,用H1或Ha表示。 4.通常将研究者想收集证据予以反对的假设称为原假设,或称零假设,用H0表示。 备选假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验。 在单侧检验中,由于研究者感兴趣的方向不同,又可以分为左侧检验和右侧检验。如果研究者选择的备选假设的方向是“<”,称为左侧检验反之选择是“>”,称为右侧检验。 备选假设没特定的方向性,并含有符号“!=”的假设检验,称为双侧检验或双尾检验。 1.2 两类错误与显著性水平 当原假设为真时拒绝原假设,所犯的错误称为第一类错误, 又称弃真错误。犯第一类错误的概率通常记为a. 当原假设为假时没有拒绝原假设,所犯的错位称为第二类错误,又称取伪错误。犯第二类错误的概率通常记为b。

概率论与数理统计教学内容

≡放荡痞女 提交于 2020-01-05 22:09:13
概率论部分 Chapter 1: 随机事件及其概率 1 随机试验;样本点;样本空间 2 随机事件, 必然事件, 不可能事件, 互不相容事件, 对立事件;随机事件的关系及运算 3 概率的定义 4 概率的性质:有限可加性,减法公式,加法公式,及推论 5 条件概率及乘法公式 6 两个事件相互独立的定义及性质;多个事件相互独立的定义及性质 7 伯努利概率模型 8 全概率公式 9 贝叶斯公式 Chapter 2: 随机变量及其分布 1 随机变量;离散型随机变量;连续型随机变量 2 分布函数及性质 3 离散型随机变量的分布率及性质;连续性随机变量的概率密度函数及性质 4 常见的离散型随机变量的分布:0-1 分布;二项分布;泊松分布 5 常见的连续型随机变量的分布: 均匀分布;指数分布;正态分布 6 随机变量的函数的分布: 离散型随机变量函数的分布;连续型随机变量函数的分布(分布函数法和公式法) Chapter 3: 数字特征 1 数学期望;离散型随机变量的期望;连续型随机变量的期望;随机变量的函数的期望 2 数学期望的性质 3 方差;标准差 4 方差的性质 5 变异系数(注:不是很重要) 6 常见随机变量的期望和方差: 两点分布的期望和方差;泊松分布的期望和方差;均匀分布的期望和方差;指数分布的期望和方差;正态分布的期望和方差 Chapter 4 : 随机向量(或称多维随机变量)及其分布 1

数学期望、方差、标准差、协方差

a 夏天 提交于 2019-12-29 01:51:46
数学期望 数学期望E(x)完全由随机变量X的概率分布所确定,若X服从某一分布,也称E(x)是这一分布的数学期望。 数学期望的定义是实验中每次可能的结果的概率乘以其结果的总和。 离散型随机量的数学期望 定义:离散型随机变量的所有可能取值 xixi 与其对应的概率 P(xi) 乘积的和为该离散型随机量的数学期望,记为 E(X)。 公式: E(X)=∑i=1nxiPi 连续型随机量的数学期望 定义:假设连续型随机变量 XX的概率密度函数为 f(x),如果积分∫+∞−∞xf(x)dx绝对收敛,则称这个积分的值为连续型随机量的数学期望,记为 E(X)。 公式: E(X)=∫+∞−∞xf(x)dx 数学期望的性质 设C为常数: E(C)==C 设C为常数: E(CX)==CE(X) 加法:E(X+Y)==E(X)+E(Y) 当X和Y相互独立时,E(XY)=)=E(X)E(Y) (主意,X和Y的相互独立性可以通过下面的“协方差”描述) 数学期望的意义 根据“大数定律”的描述,这个数字的意义是指随着重复次数接近无穷大时,数值的算术平均值几乎肯定收敛于数学期望值,也就是说数学期望值可以用于预测一个随机事件的平均预期情况。 方差 数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征。 方差有两个定义,一个是统计学的定义

python实现参数估计-置信区间

本秂侑毒 提交于 2019-12-28 13:13:07
一、关于体温、性别、心率的临床数据 对男性体温抽样计算下95%置信区间总体均值范围。转自: https://www.jianshu.com/p/a3efca8371eb import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt #读取数据 df = pd.read_csv('http://jse.amstat.org/datasets/normtemp.dat.txt', header = None,sep = '\s+' ,names=['体温','性别','心率']) #选取样本大小,查看数据 np.random.seed(42) #df.describe() #样本量为90,查看样本数据 df_sam = df.sample(90) df_sam.head() #计算抽取样本中男士体温的均值 df3 = df_sam.loc[df_sam['性别']==1] df3['体温'].mean() #重复抽取样本,计算其他样本中男士体温的均值,得到抽样分布 boot_means = [] for _ in range(10000): bootsample = df.sample(90, replace=True) mean = bootsample

协方差矩阵

删除回忆录丶 提交于 2019-12-26 07:31:05
一、统计学的基本概念 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 二、为什么需要协方差 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义: 来度量各个维度偏离其均值的程度,协方差可以这样来定义: 协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出