DeFormer:分解预先训练的Transformers,以更快地回答问题
这篇paper在去年盲审的时候就读过,这次终于读完了。 FASTER AND JUST AS ACCURATE: A SIMPLE DECOMPOSITION FOR TRANSFORMER MODELS( 更快且同样准确:Transformer模型的简单分解 ) https://openreview.net/pdf?id=B1gKVeBtDH openreview.net Introduction 文本的研究基于先前的研究: @张俊林 AI科技大本营:张俊林:BERT和Transformer到底学到了什么 | AI ProCon 2019 zhuanlan.zhihu.com 较低的层次倾向于对局部现象建模(如词性、句法范畴),而较高的层次倾向于对依赖于任务的语义现象建模(如词性、句法范畴),可以以很小的效率成本提供加速。 DeFormer引入一个简单的分解预训练的基于转换的模型,在分解的模型中,较低的层独立地处理问题和上下文文本,而较高的层联合地处理它们。假设我们允许n层模型中的k个更低的层独立地处理问题和上下文文本。DeFormer通过k个较低的层离线处理上下文文本,并缓存第k层的输出。在运行时,首先通过模型的k层处理问题,然后从缓存加载第k层的文本表示。这两个第k层表示被作为输入输入到第(k + 1)层,并通过与原始模型相同的更高的层继续进行进一步的处理。