1. Sub-VQA
本篇论文的出发点是现阶段模型存在一致性的问题:对于正确回答的问题也可能存在错误的推理过程(参照图例),在此之前的简单地以回答的正确性来评价模型存在着一定的局限性。
Perception Question & Reasoning Question
对于 VQA 问题,作者将其归类为:(1) Perception Question:可以仅仅依靠视觉信息回答,即可仅凭借识别图像中的对象 (2) Reasoning Question:需要综合多种感知信息,先验知识,逻辑推理。所以可以理解前者是后者的基础
Dataset
在 VQA 数据集上,通过自定义的 regex-based 规则划分 Perception Question 和 Reasoning Question,结果表明有 18% 的问题归类为 Reasoning Question,在每个 Reasoning Question,提供数个 Sub-Question,在 Sub-Question 中有 87.8% 的 Perception Question
构建 Sub-VQA 存在两个方面的挑战:(1) 子问题是否对主问题的回答起到一定的作用,(2) 主问题和子问题要表达的意思是否存在过多的重叠,前者可以通过招募工作者验证,后者采用 noun chunks surrogates ,这里具体的细节不再赘述,如需要了解可以参考原论文
Evaluation
模型的评估结果总共有四类:
主问题 | 子问题 | 推理结果 |
---|---|---|
✔ | ✔ | 没毛病 |
✔ | ❌ | 可能存在推理问题 |
❌ | ✔ | 肯定存在推理问题 |
❌ | ❌ | 不知道 |
2. SQuINT
Model
整体来说模型架构较为简单,在 Attention Loss 部分中,为了能让主问题和子问题关注尽可能的关注同一区域,增加模型的一致性,因此使用了 MSE Loss 函数,后面使用 Cross Entropy loss 用于提高模型的输出准确性。
模型模型的训练的目的:(1) 在回答主问题时,能更好的联合子问题,将注意力集中于相关区域,(2) 尽可能提高回答主问题和子问题的正确性,因此定义了如下的 Loss 函数:
其中 表示模型 Attention, 表示模型输出, 表示 ground-truth answer
Experiment
3. Conclusion
总的来说,本篇在 VQA 数据集的基础上,划分出了 Perception Question & Reasoning Question,在 Reasoning Question 问题的基础上,提出多个 Sub-Question,以此测试模型的一致性,即模型的推理能力。
4. Reference
Selvaraju, R. R., Tendulkar, P., Parikh, D., Horvitz, E., Ribeiro, M., Nushi, B., & Kamar, E. (2020). SQuINTing at VQA Models: Interrogating VQA Models with Sub-Questions. http://arxiv.org/abs/2001.06927
来源:CSDN
作者:斜光的博客园
链接:https://blog.csdn.net/adorkable_thief/article/details/104308736