必读的文献：关于文本对抗攻击和防御的论文

作者：Sec-Labs | 发布时间：2023-06-13 23:06:45

项目地址

https://github.com/thunlp/TAADpapers

小编推荐：TAAD论文必读清单

项目用途

该Github项目是一个TAAD论文的清单，包括调研论文、攻击论文和防御论文等。
攻击论文分为句子级别、词语级别和字符级别等不同维度，攻击模型分别对应不同的知识水平（如梯度、输出决策和得分等）。
防御论文则包括各种针对TAAD的防御方法。
项目旨在为研究者提供TAAD领域的研究方向和最前沿的论文，帮助他们更好地了解和掌握该领域的技术和进展。

文本对抗攻击与防御（TAAD）必读论文

此列表当前由芝加哥大学的杨成浩维护。

其他之前的主要贡献者包括清华大学自然语言处理实验室时的戚凡超和臧源。

我们非常感谢所有的贡献者。

0. 工具包

OpenAttack: 一个开源的文本对抗攻击工具包。曾国洋，戚凡超，周前瑞，张汀基，侯百茹，臧源，刘知远，孙茂松。ACL-IJCNLP 2021 Demo. [website] [doc] [pdf]
TextAttack: 一个用于NLP中的对抗攻击、数据增强和对抗训练的框架。John Morris，Eli Lifland，Jin Yong Yoo，Jake Grigsby，Di Jin，Yanjun Qi。EMNLP 2020 Demo. [website] [doc] [pdf]
SeqAttack: 针对命名实体识别的对抗攻击。Walter Simoncini，Gerasimos Spanakis。EMNLP 2021 Demo. [website] [pdf]

1. 综述论文

在NLP模型中衡量和提高鲁棒性：一项调查。Xuezhi Wang，Haohan Wang，Diyi Yang。NAACL 2022. [pdf]
朝着鲁棒的深度神经网络：一项调查。Wenqi Wang，Lina Wang，Benxiao Tang，Run Wang，Aoshuang Ye。TKDE 2021. [pdf]
自然语言处理中深度学习模型的对抗攻击：一项调查。Wei Emma Zhang，Quan Z. Sheng，Ahoud Alhazmi，Chenliang Li。ACM TIST 2020。[pdf]
图像、图形和文本中的对抗攻击和防御：一项综述。Han Xu，Yao Ma，Hao-chen Liu，Debayan Deb，Hui Liu，Ji-liang Tang，Anil K. Jain。International Journal of Automation and Computing 2020. [pdf]
神经语言处理中的分析方法：一项调查。Yonatan Belinkov，James Glass。TACL 2019. [pdf]

2. 攻击论文

每篇论文都附有一个或多个以下标签，表示攻击模型了解受害模型的程度：gradient（=white，所有信息），score（输出决策和分数），decision（仅输出决策）和blind（没有信息）

2.1 句子级攻击

使用对抗攻击揭示机器阅读理解模型中的统计偏差。Jieyu Lin，Jiajie Zou，Nai Ding。ACL-IJCNLP 2021。blind [pdf]
针对情感分类的灰盒对抗攻击与防御。Ying Xu，Xu Zhong，Antonio Jimeno Yepes，Jey Han Lau。NAACL-HLT 2021。gradient [pdf] [code]1. 不使用注释的平行对生成句法控制的复述。黄宽浩和张凯威。EACL 2021。[pdf] [code]
CAT-Gen：通过控制对抗文本生成提高NLP模型的鲁棒性。王天路，王学志，秦瑶，Ben Packer，李康，陈吉林，Alex Beutel，Ed Chi。EMNLP 2020。score [pdf]
T3：树自编码器约束的对抗文本生成用于目标攻击。王博欣，裴恒志，潘博源，陈谦，王硕航，李波。EMNLP 2020。gradient [pdf] [code]
结构预测模型的对抗攻击和防御。韩文娟，张力文，江勇，涂科威。EMNLP 2020。blind [pdf] [code]
MALCOM：生成恶意评论以攻击神经假新闻检测模型。Thai Le，Suhang Wang，Dongwon Lee。ICDM 2020。gradient [pdf] [code]
提高问答系统对问题复述的鲁棒性。Wee Chung Gan，Hwee Tou Ng。ACL 2019。blind [pdf] [data]
Trick Me If You Can：人类循环生成用于问答的对抗性例子。Eric Wallace，Pedro Rodriguez，Shi Feng，Ikuya Yamada，Jordan Boyd-Graber。TACL 2019。score [pdf]
PAWS：从单词混淆中复述对手。张远，Jason Baldridge，Luheng He。NAACL-HLT 2019。blind [pdf] [dataset]
评估和增强对话系统的鲁棒性：一个协商代理的案例研究。Minhao Cheng，Wei Wei，Cho-Jui Hsieh。NAACL-HLT 2019。gradient score [pdf] [code]
用于调试NLP模型的语义等效对抗规则。Marco Tulio Ribeiro，Sameer Singh，Carlos Guestrin。ACL 2018。decision [pdf] [code]
对抗性正则化神经NLI模型以整合逻辑背景知识。Pasquale Minervini，Sebastian Riedel。CoNLL 2018。score [pdf] [code&data]
通过对抗性训练提高机器理解模型的鲁棒性。Yicheng Wang，Mohit Bansal。NAACL-HLT 2018。decision [pdf] [dataset]
使用句法控制的复述网络生成句法控制的对抗性例子。Mohit Iyyer，John Wieting，Kevin Gimpel，Luke Zettlemoyer。NAACL-HLT 2018。blind [pdf] [code&data]
生成自然对抗性例子。Zhengli Zhao，Dheeru Dua，Sameer Singh。ICLR 2018。decision [pdf] [code]
用于评估阅读理解系统的对抗性例子。Robin Jia，Percy Liang。EMNLP 2017。score decision blind [pdf] [code]
用于正规化神经链接预测器的对抗集。Pasquale Minervini，Thomas Demeester，Tim Rocktäschel，Sebastian Riedel。UAI 2017。score [pdf] [code]

2.2 单词级攻击1. TextHoaxer: 基于预算的硬标签文本对抗攻击。叶沐超，苗成林，王婷，马凤龙。AAAI 2022。`决策` [pdf] [代码]

基于贝叶斯优化的离散序列数据黑盒对抗攻击的查询效率和可扩展性。李德杰，文承勇，李俊赫，宋贤旭。ICML 2022。得分 [pdf][代码]
SemAttack: 不同语义空间的自然文本攻击。王博鑫，许澈坚，刘向宇，程宇，李波。NAACL 2022发现。梯度 [pdf] [代码]
基于梯度的文本Transformer对抗攻击。郭川，Alexandre Sablayrolles，Hervé Jégou，Douwe Kiela。EMNLP 2021。梯度 [pdf] [代码]
黑盒设置中查询效率攻击的强大基线。Rishabh Maheswary，Saket Maheshwary，Vikram Pudi。EMNLP 2021。得分 [pdf] [代码]
关于神经文本分类器的对抗性攻击的可转移性的研究。袁黎平，郑小青，周逸，Cho-Jui Hsieh，Kai-Wei Chang。EMNLP 2021. [pdf]
为神经机器翻译制造对抗性示例。张新泽，张俊哲，陈振华，何坤。ACL-IJCNLP 2021。得分 [pdf] [代码]
对神经依赖解析器的鲁棒性进行更好的对抗性示例的更深入研究。王宇轩，车万翔，伊万·提托夫，谢伊B.科恩，雷挺，刘挺。ACL-IJCNLP 2021发现。得分 [pdf] [代码]
文本对抗攻击的上下文化扰动。李点奇，张义哲，彭浩，陈力群，Chris Brockett，孙明婷，比尔·多兰。NAACL-HLT 2021。得分 [pdf] [代码]
Adv-OLM: 通过OLM生成文本对抗者。Vijit Malik，Ashwani Bhat，Ashutosh Modi。EACL 2021。得分 [pdf] [代码]
野外中的对抗性风格学：基于作者概况的可转移词汇替换攻击。Chris Emmery，Ákos Kádár，Grzegorz Chrupała。EACL 2021。盲 [pdf] [代码]
在黑盒设置中生成自然语言攻击。Rishabh Maheshwary，Saket Maheshwary，Vikram Pudi。AAAI 2021。决策 [pdf] [代码]
一种启发式攻击生成自然语言对抗性示例的几何方法。孟照，Roger Wattenhofer。COLING 2020。梯度 [pdf] [代码]
BERT-ATTACK: 使用BERT对BERT进行对抗攻击。李林阳，马若天，郭其鹏，薛向阳，邱喜平。EMNLP 2020。得分 [pdf] [代码]1. BAE: 基于BERT的文本分类对抗样本。Siddhant Garg, Goutham Ramakrishnan。EMNLP 2020。得分 [pdf] [code]
检测机器翻译中的词义消歧偏见，用于模型无关的对抗攻击。Denis Emelin, Ivan Titov, Rico Sennrich。EMNLP 2020。盲 [pdf] [code]
黑盒机器翻译系统的模仿攻击和防御。Eric Wallace, Mitchell Stern, Dawn Song。EMNLP 2020。决策 [pdf] [code]
共享词汇下的释义识别中的修改鲁棒性。Zhouxing Shi, Minlie Huang。ACL: EMNLP 2020发现。得分 [pdf]
作为组合优化的词级文本对抗攻击。Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, Maosong Sun。ACL 2020。得分 [pdf] [code]
用屈折变化扰动抵抗语言歧视。Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Socher。ACL 2020。得分 [pdf] [code]
关于语言编码器对语法错误的鲁棒性。Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang。ACL 2020。得分 [pdf] [code]
用对抗样本评估和增强神经网络依存句法分析模型的鲁棒性。Xiaoqing Zheng, Jiehang Zeng, Yi Zhou, Cho-Jui Hsieh, Minhao Cheng, Xuanjing Huang。ACL 2020。梯度 得分 [pdf] [code]
用于神经机器翻译的强化生成对抗性样本。Wei Zou, Shujian Huang, Jun Xie, Xinyu Dai, Jiajun Chen。ACL 2020。决策 [pdf]
BERT真的鲁棒吗？文本分类和蕴含的自然语言攻击的强基线。Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits。AAAI 2020。得分 [pdf] [code]
Seq2Sick：用对抗样本评估序列到序列模型的鲁棒性。Minhao Cheng, Jinfeng Yi, Pin-Yu Chen, Huan Zhang, Cho-Jui Hsieh。AAAI 2020。得分 [pdf] [code]
贪婪攻击和Gumbel攻击：为离散数据生成对抗性样本。Puyudi Yang, Jianbo Chen, Cho-Jui Hsieh, Jane-LingWang, Michael I. Jordan。JMLR 2020。得分 [pdf] [code]
关于自我注意模型的鲁棒性。Yu-Lun Hsieh, Minhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, Cho-Jui Hsieh。ACL 2019。得分 [pdf]
通过概率加权的词显著性生成自然语言对抗性样本。Shuhuai Ren, Yihe Deng, Kun He, Wanxiang Che。ACL 2019。得分 [pdf] [code]1. 自然语言生成流畅对抗样本。Huangzhao Zhang，Hao Zhou，Ning Miao，Lei Li。ACL 2019. 梯度 得分 [pdf] [code]
具有双重对抗输入的强健神经机器翻译。Yong Cheng，Lu Jiang，Wolfgang Macherey。ACL 2019. 梯度 [pdf]
文本分类器的通用对抗攻击。Melika Behjati，Seyed-Mohsen Moosavi-Dezfooli，Mahdieh Soleymani Baghshah，Pascal Frossard。ICASSP 2019. 梯度 [pdf]
生成自然语言对抗样本。Moustafa Alzantot，Yash Sharma，Ahmed Elgohary，Bo-Jhang Ho，Mani Srivastava，Kai-Wei Chang。EMNLP 2018. 得分 [pdf] [code]
需要简单词汇推理的句子破坏NLI系统。Max Glockner，Vered Shwartz，Yoav Goldberg。ACL 2018. 盲 [pdf] [数据集]
深度文本分类可以被欺骗。Bin Liang，Hongcheng Li，Miaoqiang Su，Pan Bian，Xirong Li，Wenchang Shi。IJCAI 2018. 梯度 得分 [pdf]
在输入嵌入空间中解释对抗扰动的文本。Sato，Motoki，Jun Suzuki，Hiroyuki Shindo，Yuji Matsumoto。IJCAI 2018. 梯度 [pdf] [code]
制作文本对抗样本。Suranjana Samanta，Sameep Mehta。ECIR 2018. 梯度 [pdf]
为递归神经网络制作对抗输入序列。Nicolas Papernot，Patrick McDaniel，Ananthram Swami，Richard Harang。MILCOM 2016. 梯度 [pdf]

2.3 字符级攻击

使用标点符号作为深度学习NLP系统的对抗攻击：实证研究。Brian Formento，Chuan Sheng Foo，Luu Anh Tuan，See Kiong Ng。EACL (Findings) 2023. 得分 盲 [pdf] [code]
模型提取和对抗可转移性，你的BERT很脆弱！。Xuanli He，Lingjuan Lyu，Lichao Sun，Qiongkai Xu。NAACL-HLT 2021. 盲 [pdf] [code]
像人类一样处理文本：攻击和保护NLP系统。Steffen Eger，Gözde Gül ¸Sahin，Andreas Rücklé，Ji-Ung Lee，Claudia Schulz，Mohsen Mesgar，Krishnkant Swarnkar，Edwin Simpson，Iryna Gurevych。NAACL-HLT 2019. 盲 [pdf] [code&data]
从白盒到黑盒：高效提炼黑盒对抗文本攻击。SYotam Gil，Yoav Chai，Or Gorodissky，Jonathan Berant。NAACL-HLT 2019. 盲 [pdf] [code]
生成对抗文本序列以规避深度学习分类器。Ji Gao，Jack Lanchantin，Mary Lou Soffa，Yanjun Qi。IEEE SPW 2018. 得分[pdf] [code]
关于字符级神经机器翻译的对抗性例子。Javid Ebrahimi，Daniel Lowd，Dejing Dou。COLING 2018. 梯度 [pdf] [code]
合成和自然噪声都会破坏神经机器翻译。Yonatan Belinkov，Yonatan Bisk。ICLR 2018. 盲 [pdf] [code&data]

2.4 多层攻击1. 基于行为克隆的多粒度文本对抗攻击。陈阳义，苏进，魏伟。EMNLP 2021。`盲审` [pdf] [code]

合成对抗性负回复以实现强大的回复排序和评估。Prakhar Gupta，Yulia Tsvetkov，Jeffrey Bigham。ACL：ACL-IJCNLP 2021。盲审 [pdf] [code]
芝麻街上的混合代码：对抗性多语者的黎明。Samson Tan，Shafiq Joty。NAACL-HLT 2021。得分 [pdf] [code]
基于自然触发器的通用文本分类对抗攻击。松立伟，余欣伟，彭炫彤，Karthik Narasimhan。NAACL-HLT 2021。梯度 [pdf] [code]
面向基于BERT的生物医学对抗性样本生成的文本分类。Ishani Mondal。NAACL-HLT 2021。得分 [pdf] [code]
不要把“nswvtnvakgxpm”当做答案——自动内容评分系统对对抗输入的意外漏洞。Yuning Ding，Brian Riordan，Andrea Horbach，Aoife Cahill，Torsten Zesch。COLING 2020。盲审 [pdf] [code]
通用NLP对抗触发器攻击和分析。Eric Wallace，Shi Feng，Nikhil Kandpal，Matt Gardner，Sameer Singh。EMNLP-IJCNLP 2019。梯度 [pdf] [code] [website]
TEXTBUGGER：针对现实应用程序生成对抗性文本。Jinfeng Li，Shouling Ji，Tianyu Du，Bo Li，Ting Wang。NDSS 2019。梯度 得分 [pdf]
使用深度强化模型为文本分类器生成黑盒对抗性样本。Prashanth Vijayaraghavan，Deb Roy。ECMLPKDD 2019。得分 [pdf]
HotFlip：用于文本分类的白盒对抗性样本。Javid Ebrahimi，Anyi Rao，Daniel Lowd，Dejing Dou。ACL 2018。梯度 [pdf] [code]
对话模型的对抗性过度敏感性和过度稳定策略。Tong Niu，Mohit Bansal。CoNLL 2018。盲审 [pdf] [code&data]
比较基于注意力的卷积神经网络和循环神经网络：机器阅读理解中的成功和限制。Matthias Blohm，Glorianna Jagfeld，Ekta Sood，Xiang Yu，Ngoc Thang Vu。CoNLL 2018。梯度 [pdf] [code]

3. 防御论文

基于文本流形的防御自然语言对抗样本。Dang Minh Nguyen，Luu Anh Tuan。EMNLP 2022。[pdf] [code]
通过Shapley加法解释检测单词级对抗性文本攻击。Lukas Huber，Marc Alexander Kühn，Edoardo Mosca，Georg Groh。Repl4NLP @ ACL 2022。[pdf] [code]1. “这是可疑的反应！”：解释逻辑变化以检测NLP对抗性攻击。 Edoardo Mosca, Shreyash Agarwal, Javier Rando Ramírez, Georg Groh. ACL 2022。[pdf] [code]
SHIELD: 用随机多专家修补程序保护文本神经网络免受多个黑盒对抗性攻击。 Thai Le, Noseong Park, Dongwon Lee. ACL 2022。[pdf]
野外扰动：利用人类编写的文本扰动进行逼真的对抗攻击和防御。 Thai Le, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee。ACL 2022（发现）。[pdf]
通过离散对抗训练实现模型的鲁棒性。 Maor Ivgi, Jonathan Berant。EMNLP 2021。[pdf] [code]
通过狄利克雷邻域集合防御同义词替换式对抗攻击。 Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kai-Wei Chang, Xuanjing Huang。ACL-IJCNLP 2021。[pdf]
DARCY通过蜜罐检测通用触发器的对抗攻击。 Thai Le, Noseong Park, Dongwon Lee。ACL-IJCNLP 2021。[pdf] [code]
通过对抗性和混合数据增强进行鲁棒微调以实现更好的鲁棒性。 Chenglei Si, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun。ACL-IJCNLP 2021（发现）。[pdf] [code]
BERT-Defense：一种基于BERT的概率模型，用于抵御认知启发式正字法对抗性攻击。 Yannik Keller, Jan Mackensen, Steffen Eger。ACL-IJCNLP 2021（发现）。[pdf] [code]
保护预训练语言模型免受对抗性词汇替换攻击而不降低性能。 Rongzhou Bao, Jiayi Wang, Hai Zhao。ACL-IJCNLP 2021（发现）。[pdf] [code]
流形对抗增强神经机器翻译。 Guandan Chen, Kai Fan, Kaibo Zhang, Boxing Chen, Zhongqiang Huang。ACL-IJCNLP 2021（发现）。[pdf]
通过同义词编码进行自然语言对抗防御。 Xiaosen Wang, Hao Jin, Kun He。UAI 2021。[pdf] [code]
使用快速梯度投影方法对抗同义词替换式文本攻击的对抗训练。 Xiaosen Wang, Yichen Yang, Yihe Deng, Kun He。AAAI 2021。[pdf] [code]
通过频率引导的单词替换检测文本对抗性示例。 Maximilian Mozes, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin。EACL 2021。[pdf] [code]
朝着对自然语言单词替换的鲁棒性。 Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu。ICLR 2021。[pdf] [code]
InfoBERT：从信息论的角度提高语言模型的鲁棒性。 Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu。ICLR 2021。[pdf] [code]1. 通过对抗攻击增强神经模型的漏洞性。 张荣，周启飞，安波，李卫平，莫童，吴波。COLING 2020。[pdf][code]
对抗攻击下的跨域槽位填充对比零样本学习。何克清，张晋超，闫元萌，徐威然，牛程，周杰。COLING 2020。[pdf]
Mind Your Inflections！通过基础屈折编码改进非标准英语的自然语言处理。Samson Tan，Shafiq Joty，Lav R. Varshney，Min-Yen Kan。EMNLP 2020。[pdf][code]
Robust Encodings：对抗性拼写错误对抗框架。Erik Jones，Robin Jia，Aditi Raghunathan，Percy Liang。ACL 2020。[pdf][code]
联合字符级词嵌入和对抗稳定训练以防御对抗性文本。刘辉，张永振，王一鹏，林正，陈奕格。AAAI 2020。[pdf]
一种鲁棒的对抗训练方法用于机器阅读理解。刘凯，刘鑫，杨安，刘静，苏金松，李素剑，佘巧巧。AAAI 2020。[pdf]
FreeLB：增强的自然语言理解对抗训练。朱琛，程宇，干哲，孙思琦，汤姆·戈德斯坦，刘晶晶。CoRR 2019。[pdf][code]
学习区分扰动以阻止文本分类中的对抗攻击。周一超，蒋俊宇，张凯威，王威。EMNLP-IJCNLP 2019。[pdf][code]
通过对抗人类攻击实现对话安全的构建破坏修复：来自Emily Dinan，Samuel Humeau，Bharath Chintagunta，Jason Weston的强大对抗。EMNLP-IJCNLP 2019。[pdf][data]
使用强大的词识别抵御对抗性拼写错误。Danish Pruthi，Bhuwan Dhingra，Zachary C. Lipton。ACL 2019。[pdf][code]
一种通用的对抗性文本生成模型。Yizhe Zhang，Siqi Sun，Michihiro Yasunaga，Roger Grosse，Honglak Lee。ICLR 2019。[pdf]
对抗性拼写错误生成对抗性样本增强。Elena Voita，Tal Schuster，Alon Talmor，Sivan Shnarch，Yanai Elazar，Yoav Goldberg。ACL 2019。[pdf][code]
通过自适应参数化对抗性训练来提高问答系统的鲁棒性。Dan Hendrycks，Collin Burns，Steven Basart，Jacob Steinhardt，Dawn Song。ICLR 2019。[pdf]
对抗性样本生成网络中的对抗性样本攻击。Shumeet Baluja，Ian Fischer。ICLR 2018。[pdf]
一种新的对抗性文本生成模型。Yizhe Zhang，Zhe Gan，Karthik Shankar，Chenyang Wang，Xinwei Sha，Fei Liu，Pieter Abbeel。ICLR 2018。[pdf]
一种用于抵御对抗性文本的深度生成式模型。Yoon Kim，Sanghyun Hong，Lizhen Qu，Ichiro Kobayashi。ICLR 2018。[pdf]1. 对抗词汇替换的可靠性认证。Robin Jia, Aditi Raghunathan, Kerem Göksel, Percy Liang. EMNLP-IJCNLP 2019. [pdf] [代码]
POPQORN: 量化循环神经网络的稳健性。Ching-Yun Ko, Zhaoyang Lyu, Lily Weng, Luca Daniel, Ngai Wong, Dahua Lin. ICML 2019. [pdf] [代码]

5. 基准测试和评估

提示GPT-3可靠性。Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang. ICLR 2023. [pdf] [代码]
为什么对抗扰动应该是不可察觉的？重新思考对抗NLP的研究范式。Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu, Maosong Sun. EMNLP 2022. [pdf] [代码&数据]
解释神经NLP模型对文本扰动的稳健性。Yunxiang Zhang, Liangming Pan, Samson Tan, Min-Yen Kan. ACL发现，2022. [pdf]
对比人类和机器生成的文本分类词级对抗样本。Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin. EMNLP 2021. [pdf] [代码]
Dynabench：重新思考NLP基准测试。Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi Ma, Tristan Thrush, Sebastian Riedel, Zeerak Waseem, Pontus Stenetorp, Robin Jia, Mohit Bansal, Christopher Potts, Adina Williams. NAACL 2021. [pdf] [网站]
对抗GLUE：语言模型稳健性评估的多任务基准测试。Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li. NeurIPS 2021（数据集与基准测试轨道）。[pdf] [网站]
寻找有效的防御者：针对对抗词汇替换的基准测试。Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang, and Cho-Jui Hsieh. EMNLP 2021. [pdf]
双重扰动：关于稳健性和反事实偏差评估的稳健性。Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang, and Cho-Jui Hsieh NAACL 2021. [pdf] [代码]
重新评估自然语言处理中的对抗样本。John Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi. ACL发现：EMNLP 2020. [pdf] [代码&数据]
从英雄到零：低级对抗攻击的基准测试。Steffen Eger, Yannik Benz. AACL-IJCNLP 2020. [pdf] [代码&数据]
对抗NLI：自然语言理解的新基准测试。Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela. ACL 2020. [pdf] [演示] [数据集和排行榜]1. 通过对比集合评估NLP模型。Matt Gardner，Yoav Artzi，Victoria Basmova，Jonathan Berant，Ben Bogin，Sihao Chen，Pradeep Dasigi，Dheeru Dua，Yanai Elazar，Ananth Gottumukkala，Nitish Gupta，Hanna Hajishirzi，Gabriel Ilharco，Daniel Khashabi，Kevin Lin，Jiangming Liu，Nelson F. Liu，Phoebe Mulcaire，Qiang Ning，Sameer Singh，Noah A. Smith，Sanjay Subramanian，Reut Tsarfaty，Eric Wallace，Ally Zhang，Ben Zhou。ACL: EMNLP 2020的发现。[pdf] [网站]
关于评估序列到序列模型的对抗扰动。Paul Michel，Xian Li，Graham Neubig，Juan Miguel Pino。NAACL-HLT 2019. [pdf] [代码]

6.其他论文

确定人类生成单词级对抗示例的策略。Maximilian Mozes，Bennett Kleinberg，Lewis D. Griffin。ACL: EMNLP 2022的发现。[pdf]
LexicalAT：面向词汇的对抗强化训练用于强健情感分类。Jingjing Xu，Liang Zhao，Hanqi Yan，Qi Zeng，Yun Liang，Xu Sun。EMNLP-IJCNLP 2019. [pdf] [代码]
统一的视觉-语义嵌入：用结构化意义表示桥接视觉和语言。Hao Wu，Jiayuan Mao，Yufeng Zhang，Yuning Jiang，Lei Li，Weiwei Sun，Wei-Ying Ma。CVPR 2019. [pdf]
AdvEntuRe：具有知识引导示例的文本蕴涵对抗训练。Dongyeop Kang，Tushar Khot，Ashish Sabharwal，Eduard Hovy。ACL 2018. [pdf] [代码]
从对比对抗样本中学习视觉基础语义。Haoyue Shi，Jiayuan Mao，Tete Xiao，Yuning Jiang，Jian Sun。COLING 2018. [pdf] [代码]

标签：思路分享, 学习笔记

必读的文献：关于文本对抗攻击和防御的论文

项目地址

小编推荐：TAAD论文必读清单

相关技术点

项目用途

文本对抗攻击与防御（TAAD）必读论文

目录

0. 工具包

1. 综述论文

2. 攻击论文

2.1 句子级攻击

2.2 单词级攻击1. TextHoaxer: 基于预算的硬标签文本对抗攻击。叶沐超，苗成林，王婷，马凤龙。AAAI 2022。`决策` [pdf] [代码]

2.3 字符级攻击

2.4 多层攻击1. 基于行为克隆的多粒度文本对抗攻击。陈阳义，苏进，魏伟。EMNLP 2021。`盲审` [pdf] [code]

3. 防御论文

5. 基准测试和评估

6.其他论文

必读的文献：关于文本对抗攻击和防御的论文

项目地址

小编推荐：TAAD论文必读清单

相关技术点

项目用途

文本对抗攻击与防御（TAAD）必读论文

目录

0. 工具包

1. 综述论文

2. 攻击论文

2.1 句子级攻击

2.2 单词级攻击1. TextHoaxer: 基于预算的硬标签文本对抗攻击。叶沐超，苗成林，王婷，马凤龙。AAAI 2022。决策 [pdf] [代码]

2.3 字符级攻击

2.4 多层攻击1. 基于行为克隆的多粒度文本对抗攻击。陈阳义，苏进，魏伟。EMNLP 2021。盲审 [pdf] [code]

3. 防御论文

5. 基准测试和评估

6.其他论文

2.2 单词级攻击1. TextHoaxer: 基于预算的硬标签文本对抗攻击。叶沐超，苗成林，王婷，马凤龙。AAAI 2022。`决策` [pdf] [代码]

2.4 多层攻击1. 基于行为克隆的多粒度文本对抗攻击。陈阳义，苏进，魏伟。EMNLP 2021。`盲审` [pdf] [code]