1. Sub-VQA
本篇论文的出发点是现阶段模型存在一致性的问题:对于正确回答的问题也可能存在错误的推理过程(参照图例),在此之前的简单地以回答的正确性来评价模型存在着一定的局限性。
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xw2hdMo0-1581650301947)(..\img\SQUINT_1.png)]](https://img-blog.csdnimg.cn/20200214111900819.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2Fkb3JrYWJsZV90aGllZg==,size_16,color_FFFFFF,t_70)
Perception Question & Reasoning Question
对于 VQA 问题,作者将其归类为:(1) Perception Question:可以仅仅依靠视觉信息回答,即可仅凭借识别图像中的对象 (2) Reasoning Question:需要综合多种感知信息,先验知识,逻辑推理。所以可以理解前者是后者的基础
Dataset
在 VQA 数据集上,通过自定义的 regex-based 规则划分 Perception Question 和 Reasoning Question,结果表明有 18% 的问题归类为 Reasoning Question,在每个 Reasoning Question,提供数个 Sub-Question,在 Sub-Question 中有 87.8% 的 Perception Question
构建 Sub-VQA 存在两个方面的挑战:(1) 子问题是否对主问题的回答起到一定的作用,(2) 主问题和子问题要表达的意思是否存在过多的重叠,前者可以通过招募工作者验证,后者采用 noun chunks surrogates ,这里具体的细节不再赘述,如需要了解可以参考原论文
Evaluation
模型的评估结果总共有四类:
| 主问题 | 子问题 | 推理结果 | 
|---|---|---|
| ✔ | ✔ | 没毛病 | 
| ✔ | ❌ | 可能存在推理问题 | 
| ❌ | ✔ | 肯定存在推理问题 | 
| ❌ | ❌ | 不知道 | 
2. SQuINT
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GX3dHidZ-1581650301956)(../img/SQUINT_3.png)]](https://img-blog.csdnimg.cn/20200214111950272.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2Fkb3JrYWJsZV90aGllZg==,size_16,color_FFFFFF,t_70)
Model
整体来说模型架构较为简单,在 Attention Loss 部分中,为了能让主问题和子问题关注尽可能的关注同一区域,增加模型的一致性,因此使用了 MSE Loss 函数,后面使用 Cross Entropy loss 用于提高模型的输出准确性。
模型模型的训练的目的:(1) 在回答主问题时,能更好的联合子问题,将注意力集中于相关区域,(2) 尽可能提高回答主问题和子问题的正确性,因此定义了如下的 Loss 函数:
其中  表示模型 Attention, 表示模型输出, 表示 ground-truth answer
Experiment
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YpqMYwzn-1581650301957)(../img/SQuINT_5.png)]](https://img-blog.csdnimg.cn/20200214111956558.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2Fkb3JrYWJsZV90aGllZg==,size_16,color_FFFFFF,t_70)
3. Conclusion
总的来说,本篇在 VQA 数据集的基础上,划分出了 Perception Question & Reasoning Question,在 Reasoning Question 问题的基础上,提出多个 Sub-Question,以此测试模型的一致性,即模型的推理能力。
4. Reference
Selvaraju, R. R., Tendulkar, P., Parikh, D., Horvitz, E., Ribeiro, M., Nushi, B., & Kamar, E. (2020). SQuINTing at VQA Models: Interrogating VQA Models with Sub-Questions. http://arxiv.org/abs/2001.06927
来源:CSDN
作者:斜光的博客园
链接:https://blog.csdn.net/adorkable_thief/article/details/104308736