[16' KDD]Compressing Graphs and Indexes with Recursive Graph Bisection

Compressing Graphs and Indexes with Recursive Graph Bisection [SIGKDD' 16]

Authors
Abstract
Intro. & Motiv.
Algorithmic Aspect

定义图重排问题的优化目标
统一建模与新的优化目标
之前的一些近似算法

Compression-friendly Graph Reordering

算法框架：递归二分图
图二分方案

Experiments

数据集
压缩效果
重排后的邻接矩阵情况

Conclusion & Inspiration

Authors

本文发表于2016年SIGKDD上，第一作者是来自卡耐基梅隆大学(CMU)的Lax Dhulipala。其与来自FaceBook的多人合作完成了本工作。原文链接

Abstract

图重排(Graph reordering)，顾名思义就是把图的节点序号重新排列。图重排的意义是：通过重新排列，增强图表示的结构局部性。而图表示的结构局部性含义即邻接结构上相似的顶点，在线性排列映射得到的序号能够相近。例如，原有节点集{1,2,3,4,5}，其中1和5全部都连接了2和3，图重排之后，原来编号为1和5的这两个点就会更加邻近。

很容易可以想到的是，图重排造成的图线性表示结构上结构局部性的提升，会进一步带来提升图和倒排索引(可以理解为有向图)压缩率上的重要作用，原因将在Intro.&Motiv.阶段做进一步介绍。

本工作的立足点在于优化压缩，于是从实现压缩友好的图重排技术的目标出发，设计并实现了理论上可靠的、基于递归图二分的重排算法。

实验以十亿节点、千亿边级别图为例，展示了重排后在压缩率方面的明显提升。新的方法理论简单，且支持并行和分布式实现。

Intro. & Motiv.

在本部分，介绍了差分实现压缩的原理，简要分析了优化差分压缩与结构局部性的关系，并提出了本工作的动机。

差分压缩的过程和原理：图的邻接矩阵是由(节点，节点的邻结向量)对组成的。差分压缩的过程是每个图节点的邻接向量按照其元素大小进行升序排序。除第一个节点之外，每个节点的新编码使用与前一个节点序号的差来表示。
例如：节点v的邻接向量为[1,3,4,6,7,9,10]。差分压缩后的节点邻接向量为[1,3-1,4-3,6-4,7-6,9-7,10-9]=[1,2,1,2,1,2,1]。之后采用整数压缩方式编码差分。显然，因为向量数值减小了，使用二进制编码时明显提升了压缩率。
优化差分压缩与图重排、优化结构局部性的关系：差分压缩的效果取决于邻接矩阵差分的分布情况。差分越小、越规律，越有利于实现好的压缩效果。这启发我们对图序号进行重排。那么如何对图序号进行重排呢？实际上，节点的结构局部性强，正是指节点具有相似的邻接情况。将这部分节点通过重排排近，在邻接表中他们的差就会变小。结构上相似的节点，在图节点的线性表示顺序中尽可能靠近，减小差分值，是我们的优化目标。
工作动机：找到对图结构压缩友好的图重排方案，即通过重排图序号来实现有担保的压缩质量，并直接体现在压缩率的提升上。
全文贡献：
①模型：将图重排和文件标识符分配进行统一建模抽象，证明了求本问题的最优解是一个NP-hard level；
②算法：提出了对压缩友好的图重排算法；
③实验：实验证明，图重排后压缩率有了稳定提升。

Algorithmic Aspect

在本部分，首先形式化定义了图重排问题的优化目标函数，此后将图重排问题和倒排索引文档编号问题统一建模，最后总结了解决此前NP-hard问题的一些优化算法。

定义图重排问题的优化目标

图重排问题：一个组合优化问题，目标是对于每个输入的图，找到图节点的线性表示，使得某目标函数达到最优。

图节点的线性表示：现有一个图G=(V,E),n=|V|，定义一个映射π:V→{1,2,…,n}。优化目标是让(结构上)“相似”的节点在π中离得尽可能近。

最小线性排列(MLA,Minimum Linear Arrangement)

$min\sum_{(u,v)\in E}|\pi(u)-\pi(v)|$
最小对数排列(MLOGA,Minimum Logarithmic Arrangement)

$\min \sum_{(u,v)\in E}log|\pi(u)-\pi(v)|$
最小对数间距排列(MLOGGAPA,Minimum Logarithmic Gap Arrangement)

首先定义一个节点邻结点的编码长度： $f_{\pi}(v,out(v))=\sum_{i=1}^{k-1}log|\pi(v_{i+1})-\pi(v_{i})|$

MLOGGAPA的优化目标是：

$\sum_{v\in V}f_{\pi}(v,out(v))$

MLOGA 和 MLOGGAPA是同时被引入的，在Chierichetti等人的工作中，他们展示了MLOGA是NP-hard问题，并没有分析 MLOGGAPA的复杂度。本文的贡献之一是证明了 MLOGGAPA 也是一个 NP-hard问题，在这里不再赘述。

统一建模与新的优化目标

此前工作没有将图重排问题文档id分配问题统一建模，但实际上DIA是一个有向图。本文将两个问题统一建模。

统一建模：将节点划分为查询节点集(Q)和数据节点集(D)，形成一个二分图。在图模型下，查询节点即邻接矩阵的索引节点值，数据节点即为索引节点对应的邻接向量；在索引模型下，查询节点即为关键词，数据节点即为对应的文章集。 figure.1
新的优化目标：形式上来说，令G=(Q∪D，E)为无向无权二分图，其中|D|=n,|E|=m。目标是找到一个D的排列，使得：