论文阅读 | TextBugger: Generating Adversarial Text Against Real-world Applications
NDSS https://arxiv.org/abs/1812.05271 摘要中的创新点确实是对抗攻击中值得考虑的点: 1. effective 2. evasive recognized by human readers 3. efficient 在IMDB数据集上取得100%的成功率。 最后有讨论可能的防御机制,可以重点看下能不能做这相关的工作。 TEXTBUGGER: 白盒: 通过 雅可比矩阵 找到最重要的单词。 https://jingyan.baidu.com/article/cb5d6105c661bc005c2fe024.html (梯度vs Jacobian矩阵vs Hessian矩阵) (和梯度的方法差不多) 2-5步:计算重要性,对单词排序。 6-14步:生成bugs:考虑视觉和语义的相似性;考虑character-level & word-level character-level:看起来就像是简单的拼写错误。目的:把未知词汇映射到未知embedding word-level:最近邻搜索。 作者发现在一些词嵌入模型中(如word2vec),“worst”和“better”等语义相反的词在文本中具有高度的句法相似性,因此“better”被认为是“worst”的最近邻。 以上显然是不合理的,很容易被人察觉。 因此,作者使用了 语义保留技术 ,即