From Hashing to CNNs: Training Binary Weight Networks via Hashing

Abstract

本文在二值化权重(BWN)方面做出了创新，发表在AAAI2018上，作者是自动化所程建团队。本文的主要贡献是提出了一个新的训练BWN的方法，揭示了哈希与BW(Binary Weights)之间的关联，表明训练BWN的方法在本质上可以当做一个哈希问题。基于这个方法，本文还提出了一种交替更新的方法来有效的学习hash codes而不是直接学习Weights。在小数据和大数据集上表现的比之前的方法要好。

本文揭示了保持内积哈希与BWN之间的紧密关联。
为了减轻用哈希方法所带来的loss，本文将binary codes乘以了一个scaling factor并用交替优化的策略来更新binary codes以及factor。
在Cifar10,Cifar100以及ImageNet上实验，本文提出的BWNH方法比之前方法要好。

Inner-product preserving hashing

保留内积哈希方法是沈老师团队在15年ICCV上提出的，方法是给定两个点集 $X \in R^{S \times M}$ 和 $W \in R^{S \times N}$ ， $X_{i} \in R^{S \times 1}$ 以及 $W_{i} \in R^{S \times 1}$ 分别代表向量 $X$ 和 $W$ 的第 $i$ 个点，记作向量 $X$ 和 $W$ 的内积相似性(inner-product similarity)为 $S \in R^{M \times N}$ 。则目标函数变为:

m i n ‖ S h (X)^{T} g (W) ‖_{F}^{2} (1)

h (\cdot)

与

g (\cdot)

表示的是向量

X

和

W

的哈希函数。

假设有一个L层pre-trained CNN model， $X \in R^{S \times M}$ 是第 $L$ 层的input feature map.记作第 $L$ 层的权重的真实值为 $W \in R^{S \times N}$ ，目标是得到二进制的weighs $B \in {- 1, + 1}^{S \times N}$ ,天真的想法可能就是直接优化二者的差:

m i n L (B) = ‖ W B ‖_{F}^{2} s . t . B \in {+ 1, 1}^{S \times N} (2)

优化上式的解就是

B = s i g n (W)

.直接来优化

W

会导致accuracy的严重下降。这时我们可以优化内积相似性的quantiztion error:

m i n L (B) = ‖ X^{T} W X^{T} B ‖_{F}^{2} s . t . B \in {+ 1, 1}^{S \times N} (3)

我们可以发现公式

(3)

和公式

(1)

很相似，令

S = X^{T} W, B = g (W), h (X) = X

,这时两个等式是一致的。换句话说，训练一个二值化网络(BWN)本质上就转化称为了一个哈希问题。由于

h (X) = X

是一个确定的公式，所以不用学习

X

的哈希codes。这可以用在哈希空间的ACD(asmmetric distances calculation)方法来实现。
其实公式

(3)

有时候仍然会导致accuracy的下降(原因?)。本文采用了在每个hashing codes

B_{i}

上乘以一个scaling factor：

g (W) = B A

，

A

是一个对角矩阵,

α_{i} = A_{i i}

对应

B_{i}

的scaling因子，这样目标函数就变为：

m i n L (A, B) = ‖ S X^{T} B A ‖_{F}^{2} = \sum_{i}^{N} ‖ S_{i} α_{i} X^{T} B_{i} ‖_{F}^{2} (5)

S = X^{T} W, S_{i} \in R^{M \times 1}

标签

哈希