高维统计学习笔记1——LASSO和Oracle性质

主要参考资料：Sara Van De Geer《Estimation and Testing Under Sparsity》

前言

当年Tibshirani提出LASSO的时候，未曾想到LASSO竟然成为了高维统计中一个非常重要的工具，这其中当然有一部分要归功于苏黎世联邦理工大学的美女教授Sara van de geer对LASSO理论的贡献。废话少说，开始学习。

1.高维统计的重要工具——极小化正则风险

当数据特征的数量 $p$ 远大于我们所观测的样本量 $n$ 时，我们称数据是高维的，如果把总体的特征看作参数 $\beta$ ，对参数进行估计和检验的一个有效方法是极小化正则风险。

Notation

损失函数 $R:\mathcal{B}\rightarrow R, \mathcal{B}\subset\mathbb{R}^p$ .
目标参数 $\beta^0=\arg\min_{\beta\in\mathcal{B}}R(\beta)$ .
经验损失函数 $R_n:\mathcal{B}\rightarrow R$ , based on n data points $X_1,X_2,...,X_n$ with $n<p$
惩罚 $pen:\mathcal{B}\rightarrow[0,+\infty)$ ,实际上它是一个给定稀疏性后的惩罚，它对应着 $\mathbb{R}^p$ 上的一个范数。

如何估计参数 $\beta$ 呢？我们考虑的极小化正则风险：
$\hat{\beta}:=\arg\min_{\beta\in\mathcal{B}}\{R_n(\beta)+pen(\beta)\}$ Van de geer 这本书的目的就正是研究这个估计，希望能有在很高的概率下有下面这个不等式： $R(\hat{\beta})\leq R(\beta_0)+Remainder，$ $Remainder$ 是一个很小的数，它取决于 $\beta_0$ 有多稀疏。

而她实际展示的结果是下面这个更一般的不等式： $R(\hat{\beta})\leq R(\beta)+Remainder(\beta)，\forall\beta.$ 这里 $Remainder(\beta)$ 取决于 $\beta$ 的非零项的数目，其实这就是一个sharp oracle inequality，而一个non-sharp oracle inequality有下面的形式: $R(\hat{\beta})\leq R(\beta_0)+(1+\eta)(R(\beta)-R(\beta_0))+Remainder(\beta),\forall \beta.$ 这里 $\eta>0$ 是某个很小的正常数。

2.线性模型和LASSO

Notation

$||.||_n^2=||.||_2^2/n,$ $\beta_{S,j}=\beta_j1\{j\in S\},$ $\beta_S=(\beta_{S,1},...,\beta_{S,p})^T,$ $\beta_{-S}=\beta_{S^c}.$
我们考虑模型 $Y=f^0+\epsilon.$ 这里 $\epsilon$ 是一个期望为0的干扰， $Y\in\mathbb{R}^n$ 。假设 $f^0=X\beta^0$ ，那么这就是一个线性模型。假设 $\epsilon_i$ 之间不相关且方差为 $\sigma^2$ ， $X_{n\times p}$ 是一个非随机的设计阵，这时我们注意到 $E|| Y_{new}-X\hat{\beta}||_n^2=E||X\beta_0-X\hat{\beta}||_n^2+\sigma^2.$
显然，我们希望 $|| X\beta_0-X\hat{\beta}||_n^2=o_p(1)$ 。

如果 $n>p$ ，最小二乘估计 $\hat{\beta}^{LS}$ 是对参数 $\beta$ 的一个合理的估计，我们很容易得到 $E||X\beta_0-X\hat{\beta}^{LS}||_n^2=\frac{p}{n}\sigma^2,$ 当 $p\gg n$ 且 $X$ 行满秩时，有
$E||X\beta_0-X\hat{\beta}^{LS}||_n^2=\frac{n}{n}\sigma^2=\sigma^2 =\not o(1).$
因此在高维条件下最小二乘估计是不合适的。LASSO一个很好的性质是它能够产生稀疏的估计，这源于 $L_1$ 约束的几何形状，这点想必大家都清楚，就不多说了。LASSO估计的定义是： $\hat{\beta}=\arg\min_{\beta\in\mathcal{B}}\{||Y-X\beta||_n^2+2\lambda||\beta||_1\}.$ 同样，我们去计算一下 $||X\beta_0-X\hat{\beta}||_n^2$ ，我们希望它在高维的情况下依概率收敛到0，并且想知道速度有多快。

首先，由LASSO的定义显然有
$||Y-X\hat{\beta}||_n^2+2\lambda|\hat{|\beta}||_1\leq||Y-X\beta||_n^2+2\lambda||\beta||_1,\forall \beta$ 做一点简单的计算可得 $||X\beta^0 -X\hat{\beta}||_n^2\leq||X\beta^0-X\beta||_n^2+\frac{2\epsilon^TX(\hat{\beta}-\beta)}{n}+2\lambda(||\beta||_1-||\hat{\beta}||_1),$ 为了去bound左边这个prediction error，我们需要bound后面三项，第一项暂且不用去管它，对第二项有
$\frac{2\epsilon^TX(\hat{\beta}-\beta)}{n}\leq2||\frac{\epsilon^TX}{n}||_{\infty}||\hat{\beta}-\beta||_1,$ 我们不妨令集合
$\mathcal{F}=\{w:2||\frac{\epsilon(w)^TX}{n}||_{\infty}<2\lambda_0\},$ 如果 $\epsilon\sim\mathcal{N}_n(0,\sigma^2I)$ ，而且我们的数据阵经过了标准化,i.e., $||X^{(j)}||_n^2=1$ ，则 $\epsilon^TX^{(j)}/n\sim\mathcal{N}(0,\frac{\sigma^2}{n})$ ，这时 $\mathbb{P}[\mathcal{F}^c]\leq\sum_{j=1}^{p}\mathbb{P}[|\frac{\epsilon^TX^{(j)}}{n}|\geq\lambda_0]\leq pe^{-\frac{n\lambda_0^2}{2\sigma^2}}=e^{\ln(p)-\frac{n\lambda_0^2}{2\sigma^2}}.$ 令 $\lambda_0=\sigma\sqrt{\frac{2\log p+t^2}{n}}$ ，则有 $\mathbb{P}[\mathcal{F}]\geq1-e^{-t^2/2}$ ，也就是说如果 $\lambda_0\asymp\sqrt{\frac{\log(p)}{n}}$ ，那么 $\mathbb{P}[\mathcal{F}]\approx1,$ 即 $||\frac{\epsilon(w)^TX}{n}||_{\infty}=O_p(\sqrt{\frac{\log(p)}{n}}).$
所以在集合 $\mathcal{F}$ 上，
$||X\beta^0 -X\hat{\beta}||_n^2\leq||X\beta^0-X\beta||_n^2+2\lambda_0||\hat{\beta}-\beta||_1+2\lambda(||\beta||_1-||\hat{\beta}||_1),$ $(1)$ 令 $\beta=\beta^0$ ，则有
$0.5||X\beta^0 -X\hat{\beta}||_n^2+(\lambda-\lambda_0)||\hat{\beta}||_1\leq(\lambda+\lambda_0)||\beta^0||_1, \tag2$ 如果取 $\lambda_0\leq0.5\lambda$ ，则，
$||X\beta^0 -X\hat{\beta}||_n^2+\lambda||\hat{\beta}||_1\leq3\lambda||\beta^0||_1. \tag3$ 所以我们关心的为问题变成了 $||\beta^0||_1$ 到底有多大。这时，我们需要在 $||\beta^0||_1$ 和 ${\beta^0}^T\hat{\Sigma}\beta^0$ 之间建立起联系，记 $\hat{\Sigma}=X^TX/n$ 。Sara van de geer(2007) 那篇文章里提出了Compatibility constant，它的定义是，对一个常数 $L\geq1$ 和指标集 $S$ ,

$\hat{\phi}^2(L,S):=\min\{|S|||X\beta_S-X\beta_{-S}||_n^2:||\beta_S||_1=1,||\beta_{-S}||_1\leq L\},$ $L$ 一般被称作“拉伸因子”，直观上看，C-constant其实就是一个凸包到另一个拉伸后的凸包的距离。对任意 $\beta^*$ ，取 $S^*=\{j:\beta^*_j=\not0\},\delta^*=\frac{\beta^*}{||\beta^*||_1}$ ，那么显然有 $||\beta^*||_1^2\leq\frac{|S^*|||X\beta^*||_n^2}{\hat{\phi}^2(1,S^*)}.$ 当然，这个 $S^*$ 通常是不知道的，如果考虑的是任意集合 $S$ ，显然我们需要再添加一个条件 $||\beta_{-S}^*||_1\leq3||\beta_{S}^*||_1$ (这里的3我给的相当随意)，这样只需要令 $\delta^*=\frac{\beta^*}{||\beta_S^*||_1}$ ，就有 $||\beta_{S}^*||_1^2\leq\frac{|S|||X\beta_S^*-X\beta_{-S}^*||_n^2}{\hat{\phi}^2(3,S)}.$ 有了C-Constant的概念，我们取 $S^0=\{j:\beta^0_j=\not0\}$ ，对(1)做一点简单的变换，在 $\lambda>2\lambda_0$ 的条件下可得， $||X\beta^0 -X\hat{\beta}||_n^2+\lambda||\hat{\beta}_{-S^0}||_1\leq3\lambda||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1,\tag4$ 取 $\delta=\frac{\hat{\beta}-\beta^0}{||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1}$ ，可以得到 $||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1^2\leq\frac{|S^0|||X\beta^0 -X\hat{\beta}||_n^2}{\hat{\phi}^2(3,S^0)}.$ 由基本不等式，
$4\lambda||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1\leq\frac{8\lambda^2|S^0|}{\hat{\phi}^2(3,S^0)}+0.5||X\beta^0 -X\hat{\beta}||_n^2,\tag5$ 结合(4),(5)，我们显然有
$||X\beta^0 -X\hat{\beta}||_n^2+2\lambda||\hat{\beta}-\beta^0||_1\leq\frac{16\lambda^2|S^0|}{\hat{\phi}^2(3,S^0)}.\tag6$
这就是所谓的oracle不等式，注意到如果C-Constant远离0，且 $\lambda\asymp\sqrt{\frac{\log p}{n}}$ 我们有 $||X\beta^0 -X\hat{\beta}||_n^2=O_p(\frac{|S^0|\log p}{n}).$

我这里只是给出了对Oracle的一个直观感受，而书中用了一些特别的技巧，也给出了一个更加严格而且一般的定理：

定理2.2(Oracle)

假设 $||X^T\epsilon/n||_\infty\leq\lambda^0,0\leq\delta<1$ 且 $\lambda>\lambda_0$ ，令 $\lambda_{-}=\lambda-\lambda_0,\lambda^-=\lambda+\lambda_0+\delta\lambda_-,L=\frac{\lambda^-}{(1-\delta)\lambda_-},$ 那么我们有
$2\delta\lambda_-||\hat{\beta}-\beta||_1+||X\beta^0 -X\hat{\beta}||_n^2$ $\leq\min_{\beta\in\mathbb{R}^p}\min_{S\subset\{1,...,p\}}\{2\delta\lambda_-||\beta-\beta^0||_1+||X\beta^0 -X\beta||_n^2$ $+\frac{{\lambda^-}^2|S|}{\hat{\phi}^2(L,S)}+4\lambda||\beta_{-S}||_1\}.$ 如果 $(\beta^*,S^*)$ 是不等式右边的一个最小元，那么我们就称 $(\beta^*,S^*)$ 是一个Oracle。显然，取 $\beta=\beta^0$ ，可以得到我们之前得出的上面那个结果。

参考资料

[1] Sara van de geer, Estimation and Testing Under Sparsity, 2016

来源：CSDN

作者：qq_37353305

链接：https://blog.csdn.net/qq_37353305/article/details/89003023

标签

lasso

lambda