ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折
前天晚上ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中,这篇的标题并不起眼,属于看到就想直接跳过的类型。今天细读了一下,发现确实是很有意义的工作。在此与大家分享。 背景介绍 这篇paper解决的是NLP领域的模型评测问题。目前最主流的评测方法是从已有数据中划分出一部分作为测试集,然后测试模型准确率。但这并不能全面地评估一个模型的好坏,还有很多意想不到的情况: 测试集有部分数据和训练集相似度很高,模型如果overfit了也无法发现 测试集存在bias,与真实场景分布不一致 模型采用了某种shortcut才在数据集上表现良好 所以,模型的评估环节存在着不少风险,很难做出一个完美的benchmark。 近年来也涌现了大量关注NLP评测的工作。但之前的这些工作往往还是只能检测模型某种单方面的能力(例如,对噪音的鲁棒性),或者只是提出了针对某种特定任务的评测指标(例如针对NLG任务,测试生成文本前后逻辑一致性)。而且,这些新提出的测试方法往往实际操作起来并不容易。所以尽管传统方法诟病已久,却仍然大行其道。 本文提出的CHECKLIST是一种全新的、颠覆性的评测方式。作者认为:应当 全方位对模型多项