高维统计学习笔记1——LASSO和Oracle性质
主要参考资料:Sara Van De Geer《Estimation and Testing Under Sparsity》
前言
当年Tibshirani提出LASSO的时候,未曾想到LASSO竟然成为了高维统计中一个非常重要的工具,这其中当然有一部分要归功于苏黎世联邦理工大学的美女教授Sara van de geer对LASSO理论的贡献。废话少说,开始学习。
1.高维统计的重要工具——极小化正则风险
当数据特征的数量p p p 远大于我们所观测的样本量n n n 时,我们称数据是高维的,如果把总体的特征看作参数β \beta β ,对参数进行估计和检验的一个有效方法是极小化正则风险。
Notation
损失函数 R : B → R , B ⊂ R p R:\mathcal{B}\rightarrow R, \mathcal{B}\subset\mathbb{R}^p R : B → R , B ⊂ R p .目标参数 β 0 = arg min β ∈ B R ( β ) \beta^0=\arg\min_{\beta\in\mathcal{B}}R(\beta) β 0 = arg min β ∈ B R ( β ) .经验损失函数 R n : B → R R_n:\mathcal{B}\rightarrow R R n : B → R , based on n data points X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , . . . , X n with n < p n<p n < p 惩罚 p e n : B → [ 0 , + ∞ ) pen:\mathcal{B}\rightarrow[0,+\infty) p e n : B → [ 0 , + ∞ ) ,实际上它是一个给定稀疏性后的惩罚,它对应着R p \mathbb{R}^p R p 上的一个范数。
如何估计参数β \beta β 呢?我们考虑的极小化正则风险:β ^ : = arg min β ∈ B { R n ( β ) + p e n ( β ) } \hat{\beta}:=\arg\min_{\beta\in\mathcal{B}}\{R_n(\beta)+pen(\beta)\} β ^ : = arg β ∈ B min { R n ( β ) + p e n ( β ) } Van de geer 这本书的目的就正是研究这个估计,希望能有在很高的概率下有下面这个不等式:R ( β ^ ) ≤ R ( β 0 ) + R e m a i n d e r , R(\hat{\beta})\leq R(\beta_0)+Remainder, R ( β ^ ) ≤ R ( β 0 ) + R e m a i n d e r , R e m a i n d e r Remainder R e m a i n d e r 是一个很小的数,它取决于β 0 \beta_0 β 0 有多稀疏。
而她实际展示的结果是下面这个更一般的不等式:R ( β ^ ) ≤ R ( β ) + R e m a i n d e r ( β ) , ∀ β . R(\hat{\beta})\leq R(\beta)+Remainder(\beta),\forall\beta. R ( β ^ ) ≤ R ( β ) + R e m a i n d e r ( β ) , ∀ β . 这里R e m a i n d e r ( β ) Remainder(\beta) R e m a i n d e r ( β ) 取决于β \beta β 的非零项的数目,其实这就是一个sharp oracle inequality,而一个non-sharp oracle inequality有下面的形式:R ( β ^ ) ≤ R ( β 0 ) + ( 1 + η ) ( R ( β ) − R ( β 0 ) ) + R e m a i n d e r ( β ) , ∀ β . R(\hat{\beta})\leq R(\beta_0)+(1+\eta)(R(\beta)-R(\beta_0))+Remainder(\beta),\forall \beta. R ( β ^ ) ≤ R ( β 0 ) + ( 1 + η ) ( R ( β ) − R ( β 0 ) ) + R e m a i n d e r ( β ) , ∀ β . 这里η > 0 \eta>0 η > 0 是某个很小的正常数。
2.线性模型和LASSO
Notation
∣ ∣ . ∣ ∣ n 2 = ∣ ∣ . ∣ ∣ 2 2 / n , ||.||_n^2=||.||_2^2/n, ∣ ∣ . ∣ ∣ n 2 = ∣ ∣ . ∣ ∣ 2 2 / n , β S , j = β j 1 { j ∈ S } , \beta_{S,j}=\beta_j1\{j\in S\}, β S , j = β j 1 { j ∈ S } , β S = ( β S , 1 , . . . , β S , p ) T , \beta_S=(\beta_{S,1},...,\beta_{S,p})^T, β S = ( β S , 1 , . . . , β S , p ) T , β − S = β S c . \beta_{-S}=\beta_{S^c}. β − S = β S c .
我们考虑模型Y = f 0 + ϵ . Y=f^0+\epsilon. Y = f 0 + ϵ . 这里ϵ \epsilon ϵ 是一个期望为0的干扰,Y ∈ R n Y\in\mathbb{R}^n Y ∈ R n 。假设f 0 = X β 0 f^0=X\beta^0 f 0 = X β 0 ,那么这就是一个线性模型。假设ϵ i \epsilon_i ϵ i 之间不相关且方差为σ 2 \sigma^2 σ 2 ,X n × p X_{n\times p} X n × p 是一个非随机的设计阵,这时我们注意到 E ∣ ∣ Y n e w − X β ^ ∣ ∣ n 2 = E ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + σ 2 . E|| Y_{new}-X\hat{\beta}||_n^2=E||X\beta_0-X\hat{\beta}||_n^2+\sigma^2. E ∣ ∣ Y n e w − X β ^ ∣ ∣ n 2 = E ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + σ 2 .
显然,我们希望∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 = o p ( 1 ) || X\beta_0-X\hat{\beta}||_n^2=o_p(1) ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 = o p ( 1 ) 。
如果n > p n>p n > p ,最小二乘估计β ^ L S \hat{\beta}^{LS} β ^ L S 是对参数β \beta β 的一个合理的估计,我们很容易得到E ∣ ∣ X β 0 − X β ^ L S ∣ ∣ n 2 = p n σ 2 , E||X\beta_0-X\hat{\beta}^{LS}||_n^2=\frac{p}{n}\sigma^2, E ∣ ∣ X β 0 − X β ^ L S ∣ ∣ n 2 = n p σ 2 , 当p ≫ n p\gg n p ≫ n 且X X X 行满秩时,有E ∣ ∣ X β 0 − X β ^ L S ∣ ∣ n 2 = n n σ 2 = σ 2 = ̸ o ( 1 ) . E||X\beta_0-X\hat{\beta}^{LS}||_n^2=\frac{n}{n}\sigma^2=\sigma^2 =\not o(1). E ∣ ∣ X β 0 − X β ^ L S ∣ ∣ n 2 = n n σ 2 = σ 2 = ̸ o ( 1 ) .
因此在高维条件下最小二乘估计是不合适的。LASSO一个很好的性质是它能够产生稀疏的估计,这源于L 1 L_1 L 1 约束的几何形状,这点想必大家都清楚,就不多说了。LASSO估计的定义是:β ^ = arg min β ∈ B { ∣ ∣ Y − X β ∣ ∣ n 2 + 2 λ ∣ ∣ β ∣ ∣ 1 } . \hat{\beta}=\arg\min_{\beta\in\mathcal{B}}\{||Y-X\beta||_n^2+2\lambda||\beta||_1\}. β ^ = arg β ∈ B min { ∣ ∣ Y − X β ∣ ∣ n 2 + 2 λ ∣ ∣ β ∣ ∣ 1 } . 同样,我们去计算一下∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ||X\beta_0-X\hat{\beta}||_n^2 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ,我们希望它在高维的情况下依概率收敛到0,并且想知道速度有多快。
首先,由LASSO的定义显然有∣ ∣ Y − X β ^ ∣ ∣ n 2 + 2 λ ∣ ∣ β ^ ∣ ∣ 1 ≤ ∣ ∣ Y − X β ∣ ∣ n 2 + 2 λ ∣ ∣ β ∣ ∣ 1 , ∀ β ||Y-X\hat{\beta}||_n^2+2\lambda|\hat{|\beta}||_1\leq||Y-X\beta||_n^2+2\lambda||\beta||_1,\forall \beta ∣ ∣ Y − X β ^ ∣ ∣ n 2 + 2 λ ∣ ∣ β ^ ∣ ∣ 1 ≤ ∣ ∣ Y − X β ∣ ∣ n 2 + 2 λ ∣ ∣ β ∣ ∣ 1 , ∀ β 做一点简单的计算可得∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ≤ ∣ ∣ X β 0 − X β ∣ ∣ n 2 + 2 ϵ T X ( β ^ − β ) n + 2 λ ( ∣ ∣ β ∣ ∣ 1 − ∣ ∣ β ^ ∣ ∣ 1 ) , ||X\beta^0 -X\hat{\beta}||_n^2\leq||X\beta^0-X\beta||_n^2+\frac{2\epsilon^TX(\hat{\beta}-\beta)}{n}+2\lambda(||\beta||_1-||\hat{\beta}||_1), ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ≤ ∣ ∣ X β 0 − X β ∣ ∣ n 2 + n 2 ϵ T X ( β ^ − β ) + 2 λ ( ∣ ∣ β ∣ ∣ 1 − ∣ ∣ β ^ ∣ ∣ 1 ) , 为了去bound左边这个prediction error,我们需要bound后面三项,第一项暂且不用去管它,对第二项有2 ϵ T X ( β ^ − β ) n ≤ 2 ∣ ∣ ϵ T X n ∣ ∣ ∞ ∣ ∣ β ^ − β ∣ ∣ 1 , \frac{2\epsilon^TX(\hat{\beta}-\beta)}{n}\leq2||\frac{\epsilon^TX}{n}||_{\infty}||\hat{\beta}-\beta||_1, n 2 ϵ T X ( β ^ − β ) ≤ 2 ∣ ∣ n ϵ T X ∣ ∣ ∞ ∣ ∣ β ^ − β ∣ ∣ 1 , 我们不妨令集合F = { w : 2 ∣ ∣ ϵ ( w ) T X n ∣ ∣ ∞ < 2 λ 0 } , \mathcal{F}=\{w:2||\frac{\epsilon(w)^TX}{n}||_{\infty}<2\lambda_0\}, F = { w : 2 ∣ ∣ n ϵ ( w ) T X ∣ ∣ ∞ < 2 λ 0 } , 如果ϵ ∼ N n ( 0 , σ 2 I ) \epsilon\sim\mathcal{N}_n(0,\sigma^2I) ϵ ∼ N n ( 0 , σ 2 I ) ,而且我们的数据阵经过了标准化,i.e.,∣ ∣ X ( j ) ∣ ∣ n 2 = 1 ||X^{(j)}||_n^2=1 ∣ ∣ X ( j ) ∣ ∣ n 2 = 1 ,则ϵ T X ( j ) / n ∼ N ( 0 , σ 2 n ) \epsilon^TX^{(j)}/n\sim\mathcal{N}(0,\frac{\sigma^2}{n}) ϵ T X ( j ) / n ∼ N ( 0 , n σ 2 ) ,这时P [ F c ] ≤ ∑ j = 1 p P [ ∣ ϵ T X ( j ) n ∣ ≥ λ 0 ] ≤ p e − n λ 0 2 2 σ 2 = e ln ( p ) − n λ 0 2 2 σ 2 . \mathbb{P}[\mathcal{F}^c]\leq\sum_{j=1}^{p}\mathbb{P}[|\frac{\epsilon^TX^{(j)}}{n}|\geq\lambda_0]\leq pe^{-\frac{n\lambda_0^2}{2\sigma^2}}=e^{\ln(p)-\frac{n\lambda_0^2}{2\sigma^2}}. P [ F c ] ≤ j = 1 ∑ p P [ ∣ n ϵ T X ( j ) ∣ ≥ λ 0 ] ≤ p e − 2 σ 2 n λ 0 2 = e ln ( p ) − 2 σ 2 n λ 0 2 . 令λ 0 = σ 2 log p + t 2 n \lambda_0=\sigma\sqrt{\frac{2\log p+t^2}{n}} λ 0 = σ n 2 log p + t 2 ,则有P [ F ] ≥ 1 − e − t 2 / 2 \mathbb{P}[\mathcal{F}]\geq1-e^{-t^2/2} P [ F ] ≥ 1 − e − t 2 / 2 ,也就是说如果λ 0 ≍ log ( p ) n \lambda_0\asymp\sqrt{\frac{\log(p)}{n}} λ 0 ≍ n log ( p ) ,那么P [ F ] ≈ 1 , \mathbb{P}[\mathcal{F}]\approx1, P [ F ] ≈ 1 , 即∣ ∣ ϵ ( w ) T X n ∣ ∣ ∞ = O p ( log ( p ) n ) . ||\frac{\epsilon(w)^TX}{n}||_{\infty}=O_p(\sqrt{\frac{\log(p)}{n}}). ∣ ∣ n ϵ ( w ) T X ∣ ∣ ∞ = O p ( n log ( p ) ) .
所以在集合F \mathcal{F} F 上,∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ≤ ∣ ∣ X β 0 − X β ∣ ∣ n 2 + 2 λ 0 ∣ ∣ β ^ − β ∣ ∣ 1 + 2 λ ( ∣ ∣ β ∣ ∣ 1 − ∣ ∣ β ^ ∣ ∣ 1 ) , ||X\beta^0 -X\hat{\beta}||_n^2\leq||X\beta^0-X\beta||_n^2+2\lambda_0||\hat{\beta}-\beta||_1+2\lambda(||\beta||_1-||\hat{\beta}||_1), ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ≤ ∣ ∣ X β 0 − X β ∣ ∣ n 2 + 2 λ 0 ∣ ∣ β ^ − β ∣ ∣ 1 + 2 λ ( ∣ ∣ β ∣ ∣ 1 − ∣ ∣ β ^ ∣ ∣ 1 ) , ( 1 ) (1) ( 1 ) 令β = β 0 \beta=\beta^0 β = β 0 ,则有(2) 0.5 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + ( λ − λ 0 ) ∣ ∣ β ^ ∣ ∣ 1 ≤ ( λ + λ 0 ) ∣ ∣ β 0 ∣ ∣ 1 , 0.5||X\beta^0 -X\hat{\beta}||_n^2+(\lambda-\lambda_0)||\hat{\beta}||_1\leq(\lambda+\lambda_0)||\beta^0||_1, \tag2 0 . 5 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + ( λ − λ 0 ) ∣ ∣ β ^ ∣ ∣ 1 ≤ ( λ + λ 0 ) ∣ ∣ β 0 ∣ ∣ 1 , ( 2 ) 如果取λ 0 ≤ 0.5 λ \lambda_0\leq0.5\lambda λ 0 ≤ 0 . 5 λ ,则,(3) ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + λ ∣ ∣ β ^ ∣ ∣ 1 ≤ 3 λ ∣ ∣ β 0 ∣ ∣ 1 . ||X\beta^0 -X\hat{\beta}||_n^2+\lambda||\hat{\beta}||_1\leq3\lambda||\beta^0||_1. \tag3 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + λ ∣ ∣ β ^ ∣ ∣ 1 ≤ 3 λ ∣ ∣ β 0 ∣ ∣ 1 . ( 3 ) 所以我们关心的为问题变成了∣ ∣ β 0 ∣ ∣ 1 ||\beta^0||_1 ∣ ∣ β 0 ∣ ∣ 1 到底有多大。这时,我们需要在∣ ∣ β 0 ∣ ∣ 1 ||\beta^0||_1 ∣ ∣ β 0 ∣ ∣ 1 和β 0 T Σ ^ β 0 {\beta^0}^T\hat{\Sigma}\beta^0 β 0 T Σ ^ β 0 之间建立起联系,记Σ ^ = X T X / n \hat{\Sigma}=X^TX/n Σ ^ = X T X / n 。Sara van de geer(2007) 那篇文章里提出了Compatibility constant,它的定义是,对一个常数L ≥ 1 L\geq1 L ≥ 1 和指标集S S S ,
ϕ ^ 2 ( L , S ) : = min { ∣ S ∣ ∣ ∣ X β S − X β − S ∣ ∣ n 2 : ∣ ∣ β S ∣ ∣ 1 = 1 , ∣ ∣ β − S ∣ ∣ 1 ≤ L } , \hat{\phi}^2(L,S):=\min\{|S|||X\beta_S-X\beta_{-S}||_n^2:||\beta_S||_1=1,||\beta_{-S}||_1\leq L\}, ϕ ^ 2 ( L , S ) : = min { ∣ S ∣ ∣ ∣ X β S − X β − S ∣ ∣ n 2 : ∣ ∣ β S ∣ ∣ 1 = 1 , ∣ ∣ β − S ∣ ∣ 1 ≤ L } , L L L 一般被称作“拉伸因子”,直观上看,C-constant其实就是一个凸包到另一个拉伸后的凸包的距离。对任意β ∗ \beta^* β ∗ ,取S ∗ = { j : β j ∗ = ̸ 0 } , δ ∗ = β ∗ ∣ ∣ β ∗ ∣ ∣ 1 S^*=\{j:\beta^*_j=\not0\},\delta^*=\frac{\beta^*}{||\beta^*||_1} S ∗ = { j : β j ∗ = ̸ 0 } , δ ∗ = ∣ ∣ β ∗ ∣ ∣ 1 β ∗ ,那么显然有∣ ∣ β ∗ ∣ ∣ 1 2 ≤ ∣ S ∗ ∣ ∣ ∣ X β ∗ ∣ ∣ n 2 ϕ ^ 2 ( 1 , S ∗ ) . ||\beta^*||_1^2\leq\frac{|S^*|||X\beta^*||_n^2}{\hat{\phi}^2(1,S^*)}. ∣ ∣ β ∗ ∣ ∣ 1 2 ≤ ϕ ^ 2 ( 1 , S ∗ ) ∣ S ∗ ∣ ∣ ∣ X β ∗ ∣ ∣ n 2 . 当然,这个S ∗ S^* S ∗ 通常是不知道的,如果考虑的是任意集合S S S ,显然我们需要再添加一个条件∣ ∣ β − S ∗ ∣ ∣ 1 ≤ 3 ∣ ∣ β S ∗ ∣ ∣ 1 ||\beta_{-S}^*||_1\leq3||\beta_{S}^*||_1 ∣ ∣ β − S ∗ ∣ ∣ 1 ≤ 3 ∣ ∣ β S ∗ ∣ ∣ 1 (这里的3我给的相当随意),这样只需要令δ ∗ = β ∗ ∣ ∣ β S ∗ ∣ ∣ 1 \delta^*=\frac{\beta^*}{||\beta_S^*||_1} δ ∗ = ∣ ∣ β S ∗ ∣ ∣ 1 β ∗ ,就有∣ ∣ β S ∗ ∣ ∣ 1 2 ≤ ∣ S ∣ ∣ ∣ X β S ∗ − X β − S ∗ ∣ ∣ n 2 ϕ ^ 2 ( 3 , S ) . ||\beta_{S}^*||_1^2\leq\frac{|S|||X\beta_S^*-X\beta_{-S}^*||_n^2}{\hat{\phi}^2(3,S)}. ∣ ∣ β S ∗ ∣ ∣ 1 2 ≤ ϕ ^ 2 ( 3 , S ) ∣ S ∣ ∣ ∣ X β S ∗ − X β − S ∗ ∣ ∣ n 2 . 有了C-Constant的概念,我们取S 0 = { j : β j 0 = ̸ 0 } S^0=\{j:\beta^0_j=\not0\} S 0 = { j : β j 0 = ̸ 0 } ,对(1)做一点简单的变换,在λ > 2 λ 0 \lambda>2\lambda_0 λ > 2 λ 0 的条件下可得,(4) ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + λ ∣ ∣ β ^ − S 0 ∣ ∣ 1 ≤ 3 λ ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 , ||X\beta^0 -X\hat{\beta}||_n^2+\lambda||\hat{\beta}_{-S^0}||_1\leq3\lambda||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1,\tag4 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + λ ∣ ∣ β ^ − S 0 ∣ ∣ 1 ≤ 3 λ ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 , ( 4 ) 取δ = β ^ − β 0 ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 \delta=\frac{\hat{\beta}-\beta^0}{||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1} δ = ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 β ^ − β 0 ,可以得到∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 2 ≤ ∣ S 0 ∣ ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ϕ ^ 2 ( 3 , S 0 ) . ||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1^2\leq\frac{|S^0|||X\beta^0 -X\hat{\beta}||_n^2}{\hat{\phi}^2(3,S^0)}. ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 2 ≤ ϕ ^ 2 ( 3 , S 0 ) ∣ S 0 ∣ ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 . 由基本不等式,(5) 4 λ ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 ≤ 8 λ 2 ∣ S 0 ∣ ϕ ^ 2 ( 3 , S 0 ) + 0.5 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 , 4\lambda||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1\leq\frac{8\lambda^2|S^0|}{\hat{\phi}^2(3,S^0)}+0.5||X\beta^0 -X\hat{\beta}||_n^2,\tag5 4 λ ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 ≤ ϕ ^ 2 ( 3 , S 0 ) 8 λ 2 ∣ S 0 ∣ + 0 . 5 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 , ( 5 ) 结合(4),(5),我们显然有(6) ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + 2 λ ∣ ∣ β ^ − β 0 ∣ ∣ 1 ≤ 16 λ 2 ∣ S 0 ∣ ϕ ^ 2 ( 3 , S 0 ) . ||X\beta^0 -X\hat{\beta}||_n^2+2\lambda||\hat{\beta}-\beta^0||_1\leq\frac{16\lambda^2|S^0|}{\hat{\phi}^2(3,S^0)}.\tag6 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + 2 λ ∣ ∣ β ^ − β 0 ∣ ∣ 1 ≤ ϕ ^ 2 ( 3 , S 0 ) 1 6 λ 2 ∣ S 0 ∣ . ( 6 )
这就是所谓的oracle不等式,注意到如果C-Constant远离0,且λ ≍ log p n \lambda\asymp\sqrt{\frac{\log p}{n}} λ ≍ n log p 我们有∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 = O p ( ∣ S 0 ∣ log p n ) . ||X\beta^0 -X\hat{\beta}||_n^2=O_p(\frac{|S^0|\log p}{n}). ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 = O p ( n ∣ S 0 ∣ log p ) .
我这里只是给出了对Oracle的一个直观感受,而书中用了一些特别的技巧,也给出了一个更加严格而且一般的定理:
定理2.2(Oracle)
假设∣ ∣ X T ϵ / n ∣ ∣ ∞ ≤ λ 0 , 0 ≤ δ < 1 ||X^T\epsilon/n||_\infty\leq\lambda^0,0\leq\delta<1 ∣ ∣ X T ϵ / n ∣ ∣ ∞ ≤ λ 0 , 0 ≤ δ < 1 且λ > λ 0 \lambda>\lambda_0 λ > λ 0 ,令λ − = λ − λ 0 , λ − = λ + λ 0 + δ λ − , L = λ − ( 1 − δ ) λ − , \lambda_{-}=\lambda-\lambda_0,\lambda^-=\lambda+\lambda_0+\delta\lambda_-,L=\frac{\lambda^-}{(1-\delta)\lambda_-}, λ − = λ − λ 0 , λ − = λ + λ 0 + δ λ − , L = ( 1 − δ ) λ − λ − , 那么我们有2 δ λ − ∣ ∣ β ^ − β ∣ ∣ 1 + ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 2\delta\lambda_-||\hat{\beta}-\beta||_1+||X\beta^0 -X\hat{\beta}||_n^2 2 δ λ − ∣ ∣ β ^ − β ∣ ∣ 1 + ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ≤ min β ∈ R p min S ⊂ { 1 , . . . , p } { 2 δ λ − ∣ ∣ β − β 0 ∣ ∣ 1 + ∣ ∣ X β 0 − X β ∣ ∣ n 2 \leq\min_{\beta\in\mathbb{R}^p}\min_{S\subset\{1,...,p\}}\{2\delta\lambda_-||\beta-\beta^0||_1+||X\beta^0 -X\beta||_n^2 ≤ β ∈ R p min S ⊂ { 1 , . . . , p } min { 2 δ λ − ∣ ∣ β − β 0 ∣ ∣ 1 + ∣ ∣ X β 0 − X β ∣ ∣ n 2 + λ − 2 ∣ S ∣ ϕ ^ 2 ( L , S ) + 4 λ ∣ ∣ β − S ∣ ∣ 1 } . +\frac{{\lambda^-}^2|S|}{\hat{\phi}^2(L,S)}+4\lambda||\beta_{-S}||_1\}. + ϕ ^ 2 ( L , S ) λ − 2 ∣ S ∣ + 4 λ ∣ ∣ β − S ∣ ∣ 1 } . 如果( β ∗ , S ∗ ) (\beta^*,S^*) ( β ∗ , S ∗ ) 是不等式右边的一个最小元,那么我们就称( β ∗ , S ∗ ) (\beta^*,S^*) ( β ∗ , S ∗ ) 是一个Oracle。显然,取β = β 0 \beta=\beta^0 β = β 0 ,可以得到我们之前得出的上面那个结果。
参考资料
[1] Sara van de geer, Estimation and Testing Under Sparsity, 2016