统计学面试经典问题

点点圈 提交于 2020-01-25 02:56:39

1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。

1) 大数定律

  • 弱大数定律(通常指辛钦大数定律):
    a) 马尔科夫大数定律:
    随机变量满足马尔科夫条件:1n2D(k=1nξk)0\frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0,则样本均值依概率收敛于期望值。
    b) 辛钦大数定律:
    随机变量独立同分布,一阶矩存在且等于 aa,样本均值依概率收敛于期望值 aa

  • 强大数定律(柯尔莫哥洛夫):
    随机变量独立同分布,一阶矩存在且等于 aa,样本均值以概率1收敛于期望值 aa

2) 中心极限定理

  • Lindeberg-Levy 中心极限定理(最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布):

随机变量 X1,X2,,XnX_{1},X_{2},\cdots ,X_{n} 独立同分布, 且具有有限的数学期望和方差 E(Xi)=μE(X_{i})=\muD(Xi)=σ20(i=1,2,,n)D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n),记 Xˉ=1ni=1nXi,{\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}, ζn=Xˉμσ/n\zeta _{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}},

limnP(ζnz)=Φ(z)\lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right)

其中 Φ(z)\Phi (z) 是标准正态分布的分布函数。

3) 大数定律的应用

抛硬币,抛的次数足够多,正反面出现的概率近乎是一致的。

4) 中心极限定理应用

在统计推断中,常需要知道统计量的分布,例如假设检验。这时可以借助大样本理论,在样本量很大时,求出统计量的渐进分布。


2. 说出两种不同的参数估计方法,并详细介绍其中一种估计方法,对某未知参数,如何比较两个不同估计量的优劣。

极大似然估计,最小二乘估计(最小均方误差),矩估计(用样本 k 阶矩代替总体的 k 阶矩)。

矩估计法(也称数字特征法):

  • 直观意义比较明显,但要求总体 k 阶矩存在。
  • 缺点是不唯一,此时尽量使用样本低阶矩。
  • 观测值受异常值影响较大,不够稳健,实际中避免使用样本高阶矩。
  • 估计值可能不落在参数空间

极大似然估计法:

  • 具有一些理论上的优点(不变性、相合性、渐近正态性)
  • 缺点是如果似然函数不可微,没有一般的求解法则。

3. 详细介绍一种非参数统计的方法,并叙述非参数统计的优缺点

非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。

机器学习:决策树,随机森林,SVM;
假设检验:符号,符号秩,秩和检验

优点:

  • 非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
  • 多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。

缺点:

  • 由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
  • 对于大样本,如不采用适当的近似,计算可能变得十分复杂。

4. 常见的数据降维方法有哪些?详细介绍主成分分析的基本原理与作用。

逐步回归,SIS,LASSO,PCA,ICA,随机森林等一些机器学习方法变量重要性筛选

  • 基本原理: 投影
  • 作用: 降维

可参考:一些变量筛选方法——1、综述


5. ① 依概率收敛、② 概率1收敛(几乎处处收敛)的定义分别是什么?二者有什么关系?

依概率收敛( d(Xn,X)d(X_{n},X) 表示距离,通常可用XnX|X_{n}-X|):P(d(Xn,X)ε)0,ε>0.\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.
概率1收敛:P(limnXn=X)=1\mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1

接着考虑 ③ 依分布收敛,④ r阶矩收敛,有下述关系:

④ -> ①
② -> ①
① -> ③
③ -> ① (当①③ -> 常数C)


6. 阐述极大似然估计法的基本思想、缺陷及解决方案。

  • 基本思想: 出现的认为是最有可能发生的。

  • 具体定义:
    给定一个概率分布 DD,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 fDf_D,以及一个分布参数 θ\theta ,我们可以从这个分布中抽出一个具有 nn 个值的采样 X1,X2,,XnX_1, X_2,\ldots, X_n,利用 fDf_D 计算出其似然函数:
    L(θx1,,xn)=fθ(x1,,xn).{\displaystyle {L}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).} DD 是离散分布, fθ{\displaystyle f_{\theta }} 即是在参数为 θ\theta 时观测到这一采样的概率。若其是连续分布, fθ{\displaystyle f_{\theta }} 则为 X1,X2,,XnX_1, X_2,\ldots, X_n 联合分布的概率密度函数在观测值处的取值。一旦我们获得 X1,X2,,XnX_1, X_2,\ldots, X_n,我们就能求得一个关于 θ\theta 的估计。最大似然估计会寻找关于 θ\theta 的最可能的值(即,在所有可能的 θ\theta 取值中,寻找一个值使这个采样的 “可能性” 最大化)。从数学上来说,我们可以在 θ\theta 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 θ^\widehat{\theta} 值即称为 θ\theta 的最大似然估计。

    由定义,最大似然估计是样本的函数。

  • 缺陷及解决方案:

  1. 均匀分布参数,正态分布的尺度参数的极大似然估计是有偏的,可以乘以一个系数进行校正。
  2. 极大似然估计的方差在高维情况下会很大,贝叶斯方法通过加先验一定程度上克服了这个问题,形式上就是现在的各种正则化方法,使得估计结果更稳定,更有效。

7. 参数点估计量的评价标准有哪些?

相合性,无偏性(参数估计的期望等于参数),有效性(两个估计均为无偏估计,则方差越小越有效),完备性,渐进正态性……

  • 相合性(通常指弱):
    弱:θn^θ\hat{\theta_n} \to \theta,依概率
    强:θn^θ\hat{\theta_n} \to \theta,几乎处处

  • 完备性:
    ϕ(x)dPθ=0,θΘ\int \phi(x)dP_\theta = 0, \forall \theta \in \Theta ϕ(x)=0,a.s.Pθ\phi(x) = 0, a.s. P_\theta
    ϕ(x)\phi(x) 是可测函数,则分布族是完备的。


8. 谈谈你对假设检验中,显著性水平,第一类错误,第二类错误,p值,真实水平的理解。

  • 假设检验:是根据样本来推断总体的一些给定陈述是否成立的过程
  • 第一类错误(type I error):拒绝了正确零假设
  • 第二类错误(type II error):接受了不正确零假设
  • 显著性水平(level of significance) : 拒绝了正确零假设的最大概率(事先给定)
  • 检验功效(power) : 拒绝了不正确零假设概率
  • 检验的p-值:根据样本,在原假设成立的前提下,出现与样本相同或者更极端的情况的概率


9. 什么是统计学?人工智能?机器学习?深度学习?

1) 统计学

  • 是利用数据解释自然规律的科学,内容包括如何收集和分析数据。
  • 是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。

2) 人工智能

  • 指由人制造出来的机器所表现出来的智能。

3) 机器学习

  • 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
  • 机器学习是对能通过经验自动改进的计算机算法的研究。
  • 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
  • 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

4) 深度学习

  • 深度学习(DL)是一类机器学习算法,使用多个层逐步从原始数据中提取更高层的特征。——wiki
  • 深度学习就是构建由参数化功能模块构成的网络,并利用基于梯度的优化方法进行样本训练。——Yann LeCun

其他相关知识点

  • 概率的三个公理化条件
    非负性,规范性,可列可加性

  • 回归分析中的F test 与 t test
    OLS 线性回归的假设检验:t 检验和 F 检验

  • 样本点:试验可能出现的结果

  • 样本空间:样本点全体

  • 概率:对于随机事件A,用一个数P(A)表示该事件发生的可能性大小,则此数称为随机事件A的概率。

  • 随机变量:给定样本空间 (S,F)(S,{\mathbb {F}}),如果其上的实值函数 X:SRX:S\to {\mathbb {R}}F\mathbb{F} (实值)可测函数,则称 XX 为(实值)随机变量。初等概率论中通常不涉及到可测性的概念,而直接把任何 X:SRX:S\to {\mathbb {R}} 的函数称为随机变量。

  • 概率空间:(样本空间,事件域,概率)

  • 统计量:是样本测量的一种属性(例如,计算样本算术平均值),它计算的通过对数据集进行某种函数(统计算法)的运算后得到的值。

  • 充分统计量:对于统计量 t=T(X)t = T(X),若数据 XX 在已知 t=T(X)t = T(X) 时的条件分布不依赖于参数 θ\theta,则称其是关于参数 θ\theta 的充分统计量。

  • 数学期望:

    • 离散:设 ξ\xi 为一离散型随机变量,它取值 x1,x2,x3,x_1, x_2, x_3, … 对应的概率为 p1,p2,p3,p_1, p_2, p_3, … 如果级数 i=1xipi\sum^\infty_{i=1}x_i p_i 绝对收敛,则称之为 ξ\xi 的数学期望
    • 连续:设 ξ\xi 为具有密度函数 p(x)p(x) 的连续型随机变量,当积分 xp(x)dx\int xp(x)dx 绝对收敛时,称之为 ξ\xi 的数学期望。
  • 方差:若 E(ξEξ)E(\xi – E\xi) 存在,则称随机变量 ξ\xi 的方差

  • U统计量:所有对称核(无偏估计+样本的对称函数)的平均。

  • UMVUE(一致最小方差无偏估计):
    g(θ)g(\theta) 是可估参数,若 T(X)T(X)g(θ)g(\theta) 的无偏估计,且对 UgU_g(所有无偏估计组成的类)中任一估计 ϕ(X)\phi(X),有:
    Varθ(T(X))Varθ(ϕ(X)),θΘVar_\theta(T(X)) \leq Var_\theta(\phi(X)), \forall \theta \in \Theta

  • AIC,BIC(越小越好):
    AIC=2k2ln(L)AIC=2k-2\ln(L) BIC=ln(n)k2ln(L)BIC=\ln(n)k-2\ln(L)训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。

  • 损失函数:
    Hinge 损失(SVM),指数损失函数(Adaboost),平方损失函数(最小二乘法, Ordinary Least Squares ),对数损失函数(逻辑回归,交叉熵损失)

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!