高维统计学习笔记1——LASSO和Oracle性质

跟風遠走 提交于 2019-12-08 15:51:49

高维统计学习笔记1——LASSO和Oracle性质

主要参考资料:Sara Van De Geer《Estimation and Testing Under Sparsity》

前言

当年Tibshirani提出LASSO的时候,未曾想到LASSO竟然成为了高维统计中一个非常重要的工具,这其中当然有一部分要归功于苏黎世联邦理工大学的美女教授Sara van de geer对LASSO理论的贡献。废话少说,开始学习。

1.高维统计的重要工具——极小化正则风险

当数据特征的数量pp远大于我们所观测的样本量nn时,我们称数据是高维的,如果把总体的特征看作参数β\beta,对参数进行估计和检验的一个有效方法是极小化正则风险。

Notation

损失函数 R:BR,BRpR:\mathcal{B}\rightarrow R, \mathcal{B}\subset\mathbb{R}^p.
目标参数 β0=argminβBR(β)\beta^0=\arg\min_{\beta\in\mathcal{B}}R(\beta).
经验损失函数 Rn:BRR_n:\mathcal{B}\rightarrow R, based on n data points X1,X2,...,XnX_1,X_2,...,X_n with n<pn<p
惩罚 pen:B[0,+)pen:\mathcal{B}\rightarrow[0,+\infty),实际上它是一个给定稀疏性后的惩罚,它对应着Rp\mathbb{R}^p上的一个范数。

如何估计参数β\beta呢?我们考虑的极小化正则风险:
β^:=argminβB{Rn(β)+pen(β)}\hat{\beta}:=\arg\min_{\beta\in\mathcal{B}}\{R_n(\beta)+pen(\beta)\}Van de geer 这本书的目的就正是研究这个估计,希望能有在很高的概率下有下面这个不等式:R(β^)R(β0)+RemainderR(\hat{\beta})\leq R(\beta_0)+Remainder, RemainderRemainder是一个很小的数,它取决于β0\beta_0有多稀疏。

而她实际展示的结果是下面这个更一般的不等式:R(β^)R(β)+Remainder(β)β.R(\hat{\beta})\leq R(\beta)+Remainder(\beta),\forall\beta.这里Remainder(β)Remainder(\beta)取决于β\beta的非零项的数目,其实这就是一个sharp oracle inequality,而一个non-sharp oracle inequality有下面的形式:R(β^)R(β0)+(1+η)(R(β)R(β0))+Remainder(β),β.R(\hat{\beta})\leq R(\beta_0)+(1+\eta)(R(\beta)-R(\beta_0))+Remainder(\beta),\forall \beta. 这里η>0\eta>0是某个很小的正常数。

2.线性模型和LASSO

Notation

.n2=.22/n,||.||_n^2=||.||_2^2/n,βS,j=βj1{jS},\beta_{S,j}=\beta_j1\{j\in S\},βS=(βS,1,...,βS,p)T,\beta_S=(\beta_{S,1},...,\beta_{S,p})^T,βS=βSc.\beta_{-S}=\beta_{S^c}.
我们考虑模型Y=f0+ϵ.Y=f^0+\epsilon.这里ϵ\epsilon是一个期望为0的干扰,YRnY\in\mathbb{R}^n。假设f0=Xβ0f^0=X\beta^0,那么这就是一个线性模型。假设ϵi\epsilon_i之间不相关且方差为σ2\sigma^2Xn×pX_{n\times p}是一个非随机的设计阵,这时我们注意到 EYnewXβ^n2=EXβ0Xβ^n2+σ2.E|| Y_{new}-X\hat{\beta}||_n^2=E||X\beta_0-X\hat{\beta}||_n^2+\sigma^2.
显然,我们希望Xβ0Xβ^n2=op(1)|| X\beta_0-X\hat{\beta}||_n^2=o_p(1)

如果n>pn>p,最小二乘估计β^LS\hat{\beta}^{LS}是对参数β\beta的一个合理的估计,我们很容易得到EXβ0Xβ^LSn2=pnσ2,E||X\beta_0-X\hat{\beta}^{LS}||_n^2=\frac{p}{n}\sigma^2,pnp\gg nXX行满秩时,有
EXβ0Xβ^LSn2=nnσ2=σ2≠o(1).E||X\beta_0-X\hat{\beta}^{LS}||_n^2=\frac{n}{n}\sigma^2=\sigma^2 =\not o(1).
因此在高维条件下最小二乘估计是不合适的。LASSO一个很好的性质是它能够产生稀疏的估计,这源于L1L_1约束的几何形状,这点想必大家都清楚,就不多说了。LASSO估计的定义是:β^=argminβB{YXβn2+2λβ1}.\hat{\beta}=\arg\min_{\beta\in\mathcal{B}}\{||Y-X\beta||_n^2+2\lambda||\beta||_1\}.同样,我们去计算一下Xβ0Xβ^n2||X\beta_0-X\hat{\beta}||_n^2,我们希望它在高维的情况下依概率收敛到0,并且想知道速度有多快。

首先,由LASSO的定义显然有
YXβ^n2+2λβ^1YXβn2+2λβ1,β||Y-X\hat{\beta}||_n^2+2\lambda|\hat{|\beta}||_1\leq||Y-X\beta||_n^2+2\lambda||\beta||_1,\forall \beta做一点简单的计算可得Xβ0Xβ^n2Xβ0Xβn2+2ϵTX(β^β)n+2λ(β1β^1),||X\beta^0 -X\hat{\beta}||_n^2\leq||X\beta^0-X\beta||_n^2+\frac{2\epsilon^TX(\hat{\beta}-\beta)}{n}+2\lambda(||\beta||_1-||\hat{\beta}||_1),为了去bound左边这个prediction error,我们需要bound后面三项,第一项暂且不用去管它,对第二项有
2ϵTX(β^β)n2ϵTXnβ^β1,\frac{2\epsilon^TX(\hat{\beta}-\beta)}{n}\leq2||\frac{\epsilon^TX}{n}||_{\infty}||\hat{\beta}-\beta||_1,我们不妨令集合
F={w:2ϵ(w)TXn<2λ0},\mathcal{F}=\{w:2||\frac{\epsilon(w)^TX}{n}||_{\infty}<2\lambda_0\},如果ϵNn(0,σ2I)\epsilon\sim\mathcal{N}_n(0,\sigma^2I),而且我们的数据阵经过了标准化,i.e.,X(j)n2=1||X^{(j)}||_n^2=1,则ϵTX(j)/nN(0,σ2n)\epsilon^TX^{(j)}/n\sim\mathcal{N}(0,\frac{\sigma^2}{n}),这时P[Fc]j=1pP[ϵTX(j)nλ0]penλ022σ2=eln(p)nλ022σ2.\mathbb{P}[\mathcal{F}^c]\leq\sum_{j=1}^{p}\mathbb{P}[|\frac{\epsilon^TX^{(j)}}{n}|\geq\lambda_0]\leq pe^{-\frac{n\lambda_0^2}{2\sigma^2}}=e^{\ln(p)-\frac{n\lambda_0^2}{2\sigma^2}}.λ0=σ2logp+t2n\lambda_0=\sigma\sqrt{\frac{2\log p+t^2}{n}},则有P[F]1et2/2\mathbb{P}[\mathcal{F}]\geq1-e^{-t^2/2},也就是说如果λ0log(p)n\lambda_0\asymp\sqrt{\frac{\log(p)}{n}},那么P[F]1,\mathbb{P}[\mathcal{F}]\approx1,ϵ(w)TXn=Op(log(p)n).||\frac{\epsilon(w)^TX}{n}||_{\infty}=O_p(\sqrt{\frac{\log(p)}{n}}).
所以在集合F\mathcal{F}上,
Xβ0Xβ^n2Xβ0Xβn2+2λ0β^β1+2λ(β1β^1),||X\beta^0 -X\hat{\beta}||_n^2\leq||X\beta^0-X\beta||_n^2+2\lambda_0||\hat{\beta}-\beta||_1+2\lambda(||\beta||_1-||\hat{\beta}||_1),(1)(1)β=β0\beta=\beta^0,则有
(2)0.5Xβ0Xβ^n2+(λλ0)β^1(λ+λ0)β01,0.5||X\beta^0 -X\hat{\beta}||_n^2+(\lambda-\lambda_0)||\hat{\beta}||_1\leq(\lambda+\lambda_0)||\beta^0||_1, \tag2如果取λ00.5λ\lambda_0\leq0.5\lambda,则,
(3)Xβ0Xβ^n2+λβ^13λβ01.||X\beta^0 -X\hat{\beta}||_n^2+\lambda||\hat{\beta}||_1\leq3\lambda||\beta^0||_1. \tag3所以我们关心的为问题变成了β01||\beta^0||_1到底有多大。这时,我们需要在β01||\beta^0||_1β0TΣ^β0{\beta^0}^T\hat{\Sigma}\beta^0之间建立起联系,记Σ^=XTX/n\hat{\Sigma}=X^TX/nSara van de geer(2007) 那篇文章里提出了Compatibility constant,它的定义是,对一个常数L1L\geq1和指标集SS,

ϕ^2(L,S):=min{SXβSXβSn2:βS1=1,βS1L},\hat{\phi}^2(L,S):=\min\{|S|||X\beta_S-X\beta_{-S}||_n^2:||\beta_S||_1=1,||\beta_{-S}||_1\leq L\}, LL一般被称作“拉伸因子”,直观上看,C-constant其实就是一个凸包到另一个拉伸后的凸包的距离。对任意β\beta^*,取S={j:βj≠0},δ=ββ1S^*=\{j:\beta^*_j=\not0\},\delta^*=\frac{\beta^*}{||\beta^*||_1},那么显然有β12SXβn2ϕ^2(1,S).||\beta^*||_1^2\leq\frac{|S^*|||X\beta^*||_n^2}{\hat{\phi}^2(1,S^*)}.当然,这个SS^*通常是不知道的,如果考虑的是任意集合SS,显然我们需要再添加一个条件βS13βS1||\beta_{-S}^*||_1\leq3||\beta_{S}^*||_1(这里的3我给的相当随意),这样只需要令δ=ββS1\delta^*=\frac{\beta^*}{||\beta_S^*||_1},就有βS12SXβSXβSn2ϕ^2(3,S).||\beta_{S}^*||_1^2\leq\frac{|S|||X\beta_S^*-X\beta_{-S}^*||_n^2}{\hat{\phi}^2(3,S)}.有了C-Constant的概念,我们取S0={j:βj0≠0}S^0=\{j:\beta^0_j=\not0\},对(1)做一点简单的变换,在λ>2λ0\lambda>2\lambda_0的条件下可得,(4)Xβ0Xβ^n2+λβ^S013λβ^S0βS001,||X\beta^0 -X\hat{\beta}||_n^2+\lambda||\hat{\beta}_{-S^0}||_1\leq3\lambda||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1,\tag4 δ=β^β0β^S0βS001\delta=\frac{\hat{\beta}-\beta^0}{||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1},可以得到β^S0βS0012S0Xβ0Xβ^n2ϕ^2(3,S0).||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1^2\leq\frac{|S^0|||X\beta^0 -X\hat{\beta}||_n^2}{\hat{\phi}^2(3,S^0)}.由基本不等式,
(5)4λβ^S0βS0018λ2S0ϕ^2(3,S0)+0.5Xβ0Xβ^n2,4\lambda||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1\leq\frac{8\lambda^2|S^0|}{\hat{\phi}^2(3,S^0)}+0.5||X\beta^0 -X\hat{\beta}||_n^2,\tag5结合(4),(5),我们显然有
(6)Xβ0Xβ^n2+2λβ^β0116λ2S0ϕ^2(3,S0).||X\beta^0 -X\hat{\beta}||_n^2+2\lambda||\hat{\beta}-\beta^0||_1\leq\frac{16\lambda^2|S^0|}{\hat{\phi}^2(3,S^0)}.\tag6
这就是所谓的oracle不等式,注意到如果C-Constant远离0,且λlogpn\lambda\asymp\sqrt{\frac{\log p}{n}}我们有Xβ0Xβ^n2=Op(S0logpn).||X\beta^0 -X\hat{\beta}||_n^2=O_p(\frac{|S^0|\log p}{n}).

我这里只是给出了对Oracle的一个直观感受,而书中用了一些特别的技巧,也给出了一个更加严格而且一般的定理:

定理2.2(Oracle)

假设XTϵ/nλ0,0δ<1||X^T\epsilon/n||_\infty\leq\lambda^0,0\leq\delta<1λ>λ0\lambda>\lambda_0,令λ=λλ0,λ=λ+λ0+δλ,L=λ(1δ)λ,\lambda_{-}=\lambda-\lambda_0,\lambda^-=\lambda+\lambda_0+\delta\lambda_-,L=\frac{\lambda^-}{(1-\delta)\lambda_-},那么我们有
2δλβ^β1+Xβ0Xβ^n22\delta\lambda_-||\hat{\beta}-\beta||_1+||X\beta^0 -X\hat{\beta}||_n^2minβRpminS{1,...,p}{2δλββ01+Xβ0Xβn2\leq\min_{\beta\in\mathbb{R}^p}\min_{S\subset\{1,...,p\}}\{2\delta\lambda_-||\beta-\beta^0||_1+||X\beta^0 -X\beta||_n^2+λ2Sϕ^2(L,S)+4λβS1}.+\frac{{\lambda^-}^2|S|}{\hat{\phi}^2(L,S)}+4\lambda||\beta_{-S}||_1\}.如果(β,S)(\beta^*,S^*)是不等式右边的一个最小元,那么我们就称(β,S)(\beta^*,S^*)是一个Oracle。显然,取β=β0\beta=\beta^0,可以得到我们之前得出的上面那个结果。

参考资料

[1] Sara van de geer, Estimation and Testing Under Sparsity, 2016

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!