参考资料:
贝叶斯深度学习-博客园
1. 贝叶斯公式:
p(z∣x)=p(x)p(x,z)=p(x)p(x∣z)p(z)(1)
其中,
- p(z∣x) 为后验.
- p(x,z) 为联合概率.
- p(x∣z) 为似然.
- p(z) 为先验
- p(x) 为 evidence (可以理解为事件的观测值).
引入全概率公式p(x)=∫p(x∣z)p(z)dz, 式1可以变换为
p(z∣x)=∫p(x∣z)p(z)dzp(x∣z)p(z)(2)
2. 贝叶斯深度学习的训练
给定一个训练集D={(x1,y1),(x2,y2),…,(xm,ym)}, 用 D 训练一个贝叶斯神经网络, 则贝叶斯公式可以写为如下形式:
p(w∣x,y)=∫p(y∣x,w)p(w)dwp(y∣x,w)p(w)(3)
其中, p(w) 通常初始化为标准高斯分布, 当 w 已知时, p(y∣x,w) 容易求得.
然而, 分母分母这个积分要在 w 的取值空间上进行,我们知道神经网络的单个权重的取值空间可以是实数集 R,而这些权重一起构成的空间将相当复杂,基本没法积分。所以问题就出现在分母上。
目前贝叶斯训练主要用变分推断(variation inference).